Магистратура
2024/2025
A/B-тестирование: основы
Статус:
Курс обязательный (Аналитика больших данных)
Направление:
01.04.02. Прикладная математика и информатика
Где читается:
Факультет компьютерных наук
Когда читается:
1-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Паточенко Евгений Анатольевич
Прогр. обучения:
Аналитика больших данных
Язык:
русский
Кредиты:
3
Программа дисциплины
Аннотация
Курс посвящен основным методам статистического анализа и их применению в решении практических задач. Студенты познакомятся с ключевыми понятиями статистики, научатся проверять гипотезы, работать с распределениями случайных величин, сравнивать средние значения, анализировать взаимосвязи между переменными и использовать современные подходы, такие как Bootstrap. Особое внимание уделено применению статистики для решения задач из реальной индустрии.
Цель освоения дисциплины
- Освоить основные понятия статистики, включая распределения случайных величин и ключевые показатели, такие как уровень значимости и p-value.
- Научиться проверять статистические гипотезы, проводить сравнение средних значений (t-тест, дисперсионный анализ) и делать статистические выводы.
- Изучить методы анализа взаимосвязей между переменными, включая корреляцию, регрессию и множественный регрессионный анализ.
- Освоить современные подходы к анализу данных, такие как Bootstrap и работа с категориальными переменными.
- Применять статистические методы для решения реальных задач.
Планируемые результаты обучения
- Знание основных понятий математической статистики, включая выборку, генеральную совокупность и основные метрики.
- Изучение нормального распределения, его свойств и стандартизации данных, а также изучение с центральной предельной теоремой и стандартной ошибкой среднего
- Знание, как проверять продуктовые гипотезы, рассчитывать p-уровень значимости и доверительные интервалы, а также понимание, как разобраться с ошибками первого и второго рода
- Применять методы парного t-теста, однофакторного и многофакторного дисперсионного анализа (ANOVA), а также использовать их для анализа данных и визуализации результатов с использованием Python.
- Знание основ корреляции и линейной регрессии, а также умение применять соответствующие статистические тесты и интерпретировать их результаты.
- Применять метод бутстрапа для оценки статистической значимости различий в различных статистиках данных с использованием Python.
- Знание методов анализа данных с категориальными переменными и уметь использовать dummy-кодирование переменных.
- Применять основы А/Б-тестирования, включая правильный подход к проведению тестов и интерпретацию результатов для принятия обоснованных бизнес-решений
- Выбирать подходящий статистический метод для анализа данных в зависимости от исследовательского вопроса и условий исследования.
- Студент познакомится с основными понятиями математической статистики, включая выборку, генеральную совокупность и метрики.
- Студент научится рассчитывать базовые показатели данных, такие как среднее, медиана, дисперсия и квартили.
- Студент изучит нормальное распределение, его свойства и методы стандартизации данных.
- Студент освоит применение правила двух и трёх сигм для анализа распределения наблюдений.
- Студент познакомится с центральной предельной теоремой и понятием стандартной ошибки среднего, осознавая их значимость в статистическом анализе.
- Студент научится проверять продуктовые гипотезы с использованием методов математической статистики.
- Студент освоит расчёт p-уровня значимости и построение доверительных интервалов.
- Студент разберётся в понятиях ошибок первого и второго рода и их влиянии на результаты статистического анализа.
- Студент изучит свойства нормального распределения, распределения Стьюдента и их применение при анализе выборок с малым количеством наблюдений.
- Студент освоит расчёт стандартной ошибки, понятие числа степеней свободы и их влияние на результаты анализа данных.
- Студент научится использовать парный t-тест Стьюдента для сравнения средних, а также применять U-критерий Манна-Уитни для работы с данными, отклоняющимися от нормального распределения.
- Студент освоит проведение однофакторного и многофакторного дисперсионного анализа (ANOVA) для сравнения средних значений между группами.
- Студент научится корректировать результаты анализа на множественные сравнения и интерпретировать взаимодействие между факторами.
- Студент разовьёт навыки применения Python для выполнения ANOVA и визуализации результатов анализа.
- Студент изучит понятие корреляции, методы расчёта коэффициентов Пирсона, Спирмена и Кэндалла, а также условия применения корреляционного анализа.
- Студент освоит основы одномерной линейной регрессии, включая её компоненты, условия применения и проверку гипотез в контексте регрессионного анализа.
- Студент научится применять статистические тесты для оценки корреляции и регрессии, а также интерпретировать их результаты.
- Студент освоит проведение множественного регрессионного анализа для предсказания значений зависимой переменной на основе нескольких независимых переменных.
- Студент изучит основы логистической регрессии и познакомится с аспектами её применения.
- Студент познакомится с основами кластерного анализа для выявления скрытых групп и структур в данных.
- Студент изучит метод бутстрапа для оценки статистической значимости различий в средних, медианах, квантилях и других статистиках без предположений о распределении данных.
- Студент научится применять бутстрап-методику в Python с использованием библиотек scipy.stats и pingouin.
- Студент освоит основы анализа данных с категориальными переменными, включая их ограничения и особенности обработки.
- Студент научится применять dummy-кодирование для преобразования категориальных переменных в числовой формат.
Содержание учебной дисциплины
- Основные понятия статистики.
- Проверка гипотез.
- Статистический вывод.
- Сравнение средних значений (t-тест).
- Сравнение средних значений (дисперсионный анализ).
- Корреляция и регрессия.
- Множественный регрессионный анализ.
- Bootstrap.
- Аналитика категориальных переменных.
Элементы контроля
- Домашнее задание к разделам (урокам) 1-9. Квиз на закрепление основных понятий урока.99 тестовых заданий: 1 урок - 14 заданий, 2 урок - 9 заданий, 3 урок - 10 заданий, 4 урок - 11 заданий, 5 урок - 14 заданий, 6 урок - 23 задания, 7 урок - 12 заданий, 9 урок - 6 заданий.
- Д.з. к разд.(урокам) 1-9. Практ. зад.-кейсы, на расчёт метрик, постр. графиков, провед. A/B тестов.Студенты будут обрабатывать данные, создавать новые признаки, визуализировать результаты и принимать решения на основе статистического анализа на основе реальных датасетов. 52 практических задачи: 1 урок - 8 заданий, 2 урок - 8 заданий, 3 урок - 9 заданий, 4 урок - 7 заданий, 5 урок - 12 заданий, 7 урок - 8 заданий.
Промежуточная аттестация
- 2024/2025 3rd moduleИтоговая оценка соответствует сумме баллов за выполненные задания на LMS karpov.courses, приведенные к 10-балльной шкале(см. таблицу в разделе "текущий контроль-критерии оценивания"). Для каждого задания на LMS-платформе karpov.courses определён дедлайн в 14 календарных дней, после наступления которого студенту начисляется 70% от итогового балла за задание.
Список литературы
Рекомендуемая основная литература
- Математическая статистика : анализ и обработка данных: учеб. пособие для вузов, Чашкин, Ю. Р., 2010
- Прикладная статистика в задачах и упражнениях : учебник, Айвазян С.А., Мхитарян В.С., 2001
Рекомендуемая дополнительная литература
- Практическая бизнес - статистика, Сигел, Э. Ф., 2016