2025/2026



Инструменты анализа даных
Статус:
Маго-лего
Кто читает:
Департамент прикладной математики
Когда читается:
3 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Контактные часы:
28
Программа дисциплины
Аннотация
Данный курс ориентирован на освоение современных инструментов и методов анализа данных, используемых для проведения экспериментов и принятия решений на основе данных в продуктах и бизнес-процессах. Студенты освоят не только базовые библиотеки Python для анализа (Pandas, NumPy, SciPy), но и ключевые статистические методы и фреймворки для A/B-тестирования, многоруких бандитов, оценки корректности метрик и построения эффективных систем экспериментирования. Также внимание уделяется применению приближенных методов для работы с большими данными. Цель курса — сформировать у студентов целостное представление о процессе проведения экспериментов и дать им практические инструменты для их реализации и анализа.
Цель освоения дисциплины
- Оснащение студентов инструментарием на языке Python для полноценного цикла работы с данными: от планирования и проведения эксперимента до анализа результатов с использованием актуальных технологий и статистики.
Планируемые результаты обучения
- Знать основные принципы A/B-тестирования и его ограничения; методы повышения чувствительности метрик (CUPED); теорию и типы многоруких бандитов; методы проверки статистических гипотез (t-тесты, U-тесты, бутстреп); основы градиентных методов оптимизации; принципы работы приближенных алгоритмов (LLR, HLL) и метрик-отношений.
- Уметь проводить разведочный анализ данных и оценивать их качество; выбирать и применять корректные статистические критерии для проверки гипотез; рассчитывать необходимую длительность эксперимента; реализовывать и применять стратегии многоруких бандитов для оптимизации продукта; оценивать корректность и интерпретировать результаты A/B-тестов; применять градиентные методы для оптимизации параметров.
- Владеть навыками программирования на Python для анализа данных (Pandas, NumPy, SciPy); навыками работы с Jupyter Notebook; навыками использования библиотек для статистического анализа и визуализации (Statsmodels, Matplotlib, Seaborn).
- Студенты научатся настраивать окружение Python, научатся работать с модулями NumPy и Pandas.
Содержание учебной дисциплины
- Инструментарий Python для анализа данных
- Приближенные алгоритмы в анализе данных.
- Платформы A/B-тестирования и Бутстреп
- Многорукие бандиты (Multi-Armed Bandits)
- Регрессионные тесты и тесты на квантили
- Метрики-отношения
- Approximate Nearest Neighbour (ANN)
Список литературы
Рекомендуемая основная литература
- McKinney, W. (2012). Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython. Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=495822
- Nelli, F. (2018). Python Data Analytics : With Pandas, NumPy, and Matplotlib (Vol. Second edition). New York, NY: Apress. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1905344
- Python и анализ данных : первичная обработка данных с применением pandas, NumPy и Jupiter, Маккинни, У., 2023
Рекомендуемая дополнительная литература
- Наглядная математическая статистика, учебное пособие, 3-е изд., испр., 472 с., Лагутин, М. Б., 2013