Магистратура
2025/2026




Инструменты анализа данных
Статус:
Курс обязательный (Исследования и предпринимательство в искусственном интеллекте)
Где читается:
Факультет компьютерных наук
Когда читается:
1-й курс, 1 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Пиле Ян Эрнестович
Язык:
русский
Контактные часы:
28
Программа дисциплины
Аннотация
Данный курс ориентирован на освоение современных инструментов и методов анализа данных, используемых для проведения экспериментов и принятия решений на основе данных в продуктах и бизнес-процессах. Студенты освоят не только базовые библиотеки Python для анализа (Pandas, NumPy, SciPy), но и ключевые статистические методы и фреймворки для A/B-тестирования, многоруких бандитов, оценки корректности метрик и построения эффективных систем экспериментирования. Также внимание уделяется применению приближенных методов для работы с большими данными. Цель курса — сформировать у студентов целостное представление о процессе проведения экспериментов и дать им практические инструменты для их реализации и анализа.
Цель освоения дисциплины
- Формирование у студентов комплекса знаний, умений и навыков для планирования, проведения и анализа результатов экспериментов с использованием современного стека технологий и статистических методов на языке Python.
Планируемые результаты обучения
- Знать основные принципы A/B-тестирования и его ограничения; методы повышения чувствительности метрик (CUPED); теорию и типы многоруких бандитов; методы проверки статистических гипотез (t-тесты, U-тесты, бутстреп); основы градиентных методов оптимизации; принципы работы приближенных алгоритмов (LLR, HLL) и метрик-отношений.
- Уметь проводить разведочный анализ данных и оценивать их качество; выбирать и применять корректные статистические критерии для проверки гипотез; рассчитывать необходимую длительность эксперимента; реализовывать и применять стратегии многоруких бандитов для оптимизации продукта; оценивать корректность и интерпретировать результаты A/B-тестов; применять градиентные методы для оптимизации параметров.
- Владеть навыками программирования на Python для анализа данных (Pandas, NumPy, SciPy); навыками работы с Jupyter Notebook; навыками использования библиотек для статистического анализа и визуализации (Statsmodels, Matplotlib, Seaborn).
- Умение анализировать результаты и корректность применения.
- Формирование исследовательских навыков: постановка эксперимента, анализ, визуализация результатов.
- Умение логично и полно излагать теоретический материал.
- Навыки решения задач анализа данных на конкретных датасетах.
- Способность обосновывать выбор метода решения для конкретной задачи.
Содержание учебной дисциплины
- Инструментарий Python для анализа данных. Повторение основ Python. Настройка окружения. Основы NumPy и Pandas для манипуляций с данными.
- Приближенные алгоритмы в анализе данных. Проблема работы с большими данными. Приближенные методы: Count-Min Sketch, HyperLogLog, t-digest.
- Платформы A/B-тестирования и Бутстреп. Принципы построения A/B-платформ. Бутстреп как непараметрический метод оценки статистик.
- Многорукие бандиты (Multi-Armed Bandits). Сравнение с A/B-тестами. Стратегии решения задачи о многоруком бандите.
- Регрессионные тесты и тесты на квантили. Переформулировка статистического тестирования в терминах линейных регрессий. Анализ средних и квантильные метрики.
- Метрики-отношения: Проблема коррелированности метрик в A/B-тестах. Методы анализа Ratio-метрик.
- Approximate Nearest Neighbour (ANN). Ускорение поиска похожих объектов с помощью ANN-алгоритмов.
Элементы контроля
- Домашняя работаРегулярные индивидуальные задания, направленные на закрепление теоретического материала и практическое освоение методов. Включают как аналитические задачи (вывод формул, доказательства свойств), которые будут идти в формате бонуса, так и вычислительные эксперименты с реализацией алгоритмов в Python.
- ЭкзаменФинальное испытание по дисциплине. Студент получает билет, включающий один теоретический вопрос и одну практическую задачу. Ответ предполагает устное изложение теоретического материала, вывод основных формул и решение практической задачи.
Список литературы
Рекомендуемая основная литература
- Python for data analysis : data wrangling with pandas, numPy, and IPhython, Mckinney, W., 2017
- Лагутин, М. Б. Наглядная математическая статистика : учебное пособие / М. Б. Лагутин. - 9-е изд. - Москва : Лаборатория знаний, 2023. - 475 с. - ISBN 978-5-93208-651-3. - Текст : электронный. - URL: https://znanium.com/catalog/product/2032511
Рекомендуемая дополнительная литература
- Наглядная математическая статистика : учеб. пособие для вузов, Лагутин, М. Б., 2019