Магистратура
2025/2026




A/B-тестирование: основы
Статус:
Курс обязательный (Аналитика больших данных)
Где читается:
Факультет компьютерных наук
Когда читается:
1-й курс, 3 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Паточенко Евгений Анатольевич
Язык:
русский
Кредиты:
3
Контактные часы:
40
Программа дисциплины
Аннотация
Курс посвящен основным методам статистического анализа и их применению в решении практических задач. Студенты познакомятся с ключевыми понятиями статистики, научатся проверять гипотезы, работать с распределениями случайных величин, сравнивать средние значения, анализировать взаимосвязи между переменными и использовать современные подходы, такие как Bootstrap. Особое внимание уделено применению статистики для решения задач из реальной индустрии.
Цель освоения дисциплины
- Освоить основные понятия статистики, включая распределения случайных величин и ключевые показатели, такие как уровень значимости и p-value.
- Научиться проверять статистические гипотезы, проводить сравнение средних значений (t-тест, дисперсионный анализ) и делать статистические выводы.
- Изучить методы анализа взаимосвязей между переменными, включая корреляцию, регрессию и множественный регрессионный анализ.
- Освоить современные подходы к анализу данных, такие как Bootstrap и работа с категориальными переменными.
- Применять статистические методы для решения реальных задач.
Планируемые результаты обучения
- Студент познакомится с основными понятиями математической статистики, включая выборку, генеральную совокупность и метрики.
- Студент научится рассчитывать базовые показатели данных, такие как среднее, медиана, дисперсия и квартили.
- Студент изучит нормальное распределение, его свойства и методы стандартизации данных.
- Студент освоит применение правила двух и трёх сигм для анализа распределения наблюдений.
- Студент познакомится с центральной предельной теоремой и понятием стандартной ошибки среднего, осознавая их значимость в статистическом анализе.
- Студент научится проверять продуктовые гипотезы с использованием методов математической статистики.
- Студент освоит расчёт p-уровня значимости и построение доверительных интервалов.
- Студент разберётся в понятиях ошибок первого и второго рода и их влиянии на результаты статистического анализа.
- Студент изучит свойства нормального распределения, распределения Стьюдента и их применение при анализе выборок с малым количеством наблюдений.
- Студент освоит расчёт стандартной ошибки, понятие числа степеней свободы и их влияние на результаты анализа данных.
- Студент научится использовать парный t-тест Стьюдента для сравнения средних, а также применять U-критерий Манна-Уитни для работы с данными, отклоняющимися от нормального распределения.
- Студент освоит проведение однофакторного и многофакторного дисперсионного анализа (ANOVA) для сравнения средних значений между группами.
- Студент научится корректировать результаты анализа на множественные сравнения и интерпретировать взаимодействие между факторами.
- Студент разовьёт навыки применения Python для выполнения ANOVA и визуализации результатов анализа.
- Студент изучит понятие корреляции, методы расчёта коэффициентов Пирсона, Спирмена и Кэндалла, а также условия применения корреляционного анализа.
- Студент освоит основы одномерной линейной регрессии, включая её компоненты, условия применения и проверку гипотез в контексте регрессионного анализа.
- Студент научится применять статистические тесты для оценки корреляции и регрессии, а также интерпретировать их результаты.
- Студент освоит проведение множественного регрессионного анализа для предсказания значений зависимой переменной на основе нескольких независимых переменных.
- Студент изучит основы логистической регрессии и познакомится с аспектами её применения.
- Студент познакомится с основами кластерного анализа для выявления скрытых групп и структур в данных.
- Студент изучит метод бутстрапа для оценки статистической значимости различий в средних, медианах, квантилях и других статистиках без предположений о распределении данных.
- Студент научится применять бутстрап-методику в Python с использованием библиотек scipy.stats и pingouin.
- Студент освоит основы анализа данных с категориальными переменными, включая их ограничения и особенности обработки.
- Студент научится применять dummy-кодирование для преобразования категориальных переменных в числовой формат.
- Оперировать базовыми понятиями теории вероятностей;
- Применять правила сложения и умножения вероятностей в прикладных задачах.
- Использовать формулу Бернулли для расчёта вероятностей при повторяющихся испытаниях.
- Анализировать задачи с условной вероятностью и правильно интерпретировать результаты;
- Применять вероятностные подходы для оценки неопределённости в задачах анализа данных.
Содержание учебной дисциплины
- Сложение и произведение вероятностей
- Формула Бернулли
- Условная вероятность
- Практикум "Как выбрать правильную формулу: сумма, произведение, Бернулли"
- Основные понятия статистики
- Проверка гипотез
- Статистический вывод
- Сравнение средних значений (t-тест)
- Сравнение средних значений (дисперсионный анализ)
- Корреляция и регрессия
- Множественный регрессионный анализ
- Bootstrap
- Аналитика категориальных переменных
- Собеседования по теории вероятностей и статистике
Элементы контроля
- Домашнее задание к разделам (урокам) 1-14. Квиз на закрепление основных понятий урока.99 тестовых заданий: 1 урок - 14 заданий, 2 урок - 9 заданий, 3 урок - 10 заданий, 4 урок - 11 заданий, 5 урок - 14 заданий, 6 урок - 23 задания, 7 урок - 12 заданий, 9 урок - 6 заданий.
- Домашнее задание к разделам (урокам) 1-14.Практические задачи-кейсы, направленные на расчёт метрик, построение графиков, проведение A/B тестов. Студенты будут обрабатывать данные, создавать новые признаки, визуализировать результаты и принимать решения на основе статистического анализа на основе реальных датасетов. 52 практических задачи: 1 урок - 8 заданий, 2 урок - 8 заданий, 3 урок - 9 заданий, 4 урок - 7 заданий, 5 урок - 12 заданий, 7 урок - 8 заданий.
Промежуточная аттестация
- 2025/2026 3rd moduleИтоговая оценка соответствует сумме баллов за выполненные задания на LMS karpov.courses, приведенные к 10-балльной шкале (см. таблицу). Для каждого задания на LMS-платформе karpov.courses определён дедлайн в 14 календарных дней, после наступления которого студенту начисляется 70% от итогового балла за задание.