• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2025/2026

Инструменты анализа данных

Когда читается: 1-й курс, 1 модуль
Охват аудитории: для своего кампуса
Преподаватели: Пиле Ян Эрнестович
Язык: русский
Контактные часы: 28

Программа дисциплины

Аннотация

Данный курс ориентирован на освоение современных инструментов и методов анализа данных, используемых для проведения экспериментов и принятия решений на основе данных в продуктах и бизнес-процессах. Студенты освоят не только базовые библиотеки Python для анализа (Pandas, NumPy, SciPy), но и ключевые статистические методы и фреймворки для A/B-тестирования, многоруких бандитов, оценки корректности метрик и построения эффективных систем экспериментирования. Также внимание уделяется применению приближенных методов для работы с большими данными. Цель курса — сформировать у студентов целостное представление о процессе проведения экспериментов и дать им практические инструменты для их реализации и анализа.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование у студентов комплекса знаний, умений и навыков для планирования, проведения и анализа результатов экспериментов с использованием современного стека технологий и статистических методов на языке Python.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать основные принципы A/B-тестирования и его ограничения; методы повышения чувствительности метрик (CUPED); теорию и типы многоруких бандитов; методы проверки статистических гипотез (t-тесты, U-тесты, бутстреп); основы градиентных методов оптимизации; принципы работы приближенных алгоритмов (LLR, HLL) и метрик-отношений.
  • Уметь проводить разведочный анализ данных и оценивать их качество; выбирать и применять корректные статистические критерии для проверки гипотез; рассчитывать необходимую длительность эксперимента; реализовывать и применять стратегии многоруких бандитов для оптимизации продукта; оценивать корректность и интерпретировать результаты A/B-тестов; применять градиентные методы для оптимизации параметров.
  • Владеть навыками программирования на Python для анализа данных (Pandas, NumPy, SciPy); навыками работы с Jupyter Notebook; навыками использования библиотек для статистического анализа и визуализации (Statsmodels, Matplotlib, Seaborn).
  • Умение анализировать результаты и корректность применения.
  • Формирование исследовательских навыков: постановка эксперимента, анализ, визуализация результатов.
  • Умение логично и полно излагать теоретический материал.
  • Навыки решения задач анализа данных на конкретных датасетах.
  • Способность обосновывать выбор метода решения для конкретной задачи.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Инструментарий Python для анализа данных. Повторение основ Python. Настройка окружения. Основы NumPy и Pandas для манипуляций с данными.
  • Приближенные алгоритмы в анализе данных. Проблема работы с большими данными. Приближенные методы: Count-Min Sketch, HyperLogLog, t-digest.
  • Платформы A/B-тестирования и Бутстреп. Принципы построения A/B-платформ. Бутстреп как непараметрический метод оценки статистик.
  • Многорукие бандиты (Multi-Armed Bandits). Сравнение с A/B-тестами. Стратегии решения задачи о многоруком бандите.
  • Регрессионные тесты и тесты на квантили. Переформулировка статистического тестирования в терминах линейных регрессий. Анализ средних и квантильные метрики.
  • Метрики-отношения: Проблема коррелированности метрик в A/B-тестах. Методы анализа Ratio-метрик.
  • Approximate Nearest Neighbour (ANN). Ускорение поиска похожих объектов с помощью ANN-алгоритмов.
Элементы контроля

Элементы контроля

  • неблокирующий Домашняя работа
    Регулярные индивидуальные задания, направленные на закрепление теоретического материала и практическое освоение методов. Включают как аналитические задачи (вывод формул, доказательства свойств), которые будут идти в формате бонуса, так и вычислительные эксперименты с реализацией алгоритмов в Python.
  • неблокирующий Экзамен
    Финальное испытание по дисциплине. Студент получает билет, включающий один теоретический вопрос и одну практическую задачу. Ответ предполагает устное изложение теоретического материала, вывод основных формул и решение практической задачи.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 1st module
    0.6 * Домашняя работа + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Python for data analysis : data wrangling with pandas, numPy, and IPhython, Mckinney, W., 2017
  • Лагутин, М. Б. Наглядная математическая статистика : учебное пособие / М. Б. Лагутин. - 9-е изд. - Москва : Лаборатория знаний, 2023. - 475 с. - ISBN 978-5-93208-651-3. - Текст : электронный. - URL: https://znanium.com/catalog/product/2032511

Рекомендуемая дополнительная литература

  • Наглядная математическая статистика : учеб. пособие для вузов, Лагутин, М. Б., 2019

Авторы

  • Емашева Валерия Анатольевна