Машинное обучение для решения задач аналитики

2025/2026

Статус: Маго-лего

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 3 модуль

Охват аудитории: для своего кампуса

Преподаватели: Паточенко Евгений Анатольевич

Язык: русский

Кредиты: 3

Контактные часы: 40

Дополнительные материалы в LMS Задать вопрос

Аннотация

На курсе студенты изучат методы машинного обучения, необходимые для эффективного решения нетривиальных аналитических задач. Погрузятся в процесс проектирования и реализации сложных дизайнов экспериментов, используя несколько моделей машинного обучения одновременно, а также углубятся в способности адаптировать спецификацию задачи в соответствии с требованиями бизнеса. В ходе обучения студенты освоят разнообразные методы обработки и валидации данных для их использования в моделях машинного обучения, а также научатся критически выбирать наиболее подходящие модели и эффективно их обучать. Они приобретут умение оценивать и сравнивать различные модели с использованием соответствующих метрик, а также интерпретировать результаты для выработки прогностических выводов, направленных на решение конкретных бизнес-задач.

Цель освоения дисциплины

Проектировать и реализовывать дизайн экспериментов разного уровня глубины и ширины с несколькими моделями машинного обучения в контексте решения аналитических и исследовательских задач.
Проводить этап спецификации задачи, декомпозируя и описывая аналитическую задачу в терминах машинного обучения, а также экспериментировать со спецификацией в зависимости от бизнес-требований.
Обрабатывать и валидировать данные для использования в моделях машинного обучения различными способами.
Выбирать релевантную аналитической задаче модель машинного обучения для экспериментирования, и обучать ее.
Оценивать и сравнивать модели машинного обучения по выбранной метрике.
Интерпретировать финальные результаты выбранной модели для составления прогнозов по бизнес-задачам.

Планируемые результаты обучения

Студент может декомпозировать аналитическую задачу и описать её в терминах машинного обучения (проделать работу на первом этапе пайплайна - спецификация)
Студент может оценить результат применения модели машинного обучения с помощью функции ошибки (метрики)
Студент умеет строить линейную регрессию в Python с помощью библиотеки sklearn и интерпретировать ее [модели] результаты
Студент понимает, с чем можно экспериментировать в процессе решения задачи машинного обучения и на каких этапах работы это делать
Студент умеет применять стратегию валидации данных
Студент умеет обрабатывать данные для использования в обучении моделей МО, применяя такие способы как: чистка, заполнение пропусков, выделение новых признаков, кодировка категориальных признаков и масштабирование
Студент умеет настраивать автоматическую обработку данных с помощью пайплайна обработки и писать кастомные селекторы и трансформеры
Студент умеет обучать расширенные версии линейной регрессии Lasso и Ridge в рамках экспериментов с моделями линейной регрессии
Студент умеет считать метрики для обученных моделей, сравнивать модели и выбирать наилучшие
Студент понимает суть задачи классификации и методов её решения с точки зрения математики и может перевести аналитическую задачу в задачу классификации для решения с помощью методов машинного обучения
Студент умеет использовать модели логистической регрессии и SVM для решения задачи классификации
Студент умеет оценивать результат модели с помощью метрик классификации
Студент умеет калибровать результаты модели под оценку вероятностей
Студент знает, какие существуют подходы решения задачи множественной классификации
Студент умеет интерпретировать результаты модели логистической регрессии в задаче классификации
Студент понимает концепцию метрического подхода в задачах регрессии и классификации
Студент умеет использовать алгоритм kNN с учетом его ограничений для решения задачи прогнозирования
Студент понимает, как использовать алгоритм kNN для заполнения пропусков в данных
Студент умеет подбирать лучшие параметры для обучения kNN
Студент умеет применять стратифицированную стратегию валидации данных
Студент понимает, что выбор лучшей модели может зависеть не только от значения метрики, но и от необходимости интерпретировать результат
Студент понимает, как проводить подготовку фичей (feature engineering) и их отбор (feature selection) для повышения качества модели
Студент понимает, в чем особенность задачи кластеризации
Студент умеет применять два подхода кластеризации объектов
Студент умеет считать метрики оценки качества кластеризации
Студент умеет визуализировать полученный результат кластеризации и интерпретировать полученные кластеры
Студент может перевести аналитическую задачу на данных с временной структурой в задачу прогнозирования временных рядов для решения её методами машинного обучения
Студент понимает, как решать задачу прогнозирования временных рядов с помощью авторегрессионного подхода
Студент умеет решать задачу прогнозирования временных рядов с помощью расширенных моделей авторегрессии (ARIMA, SARIMA, SARIMAX) и модели prophet
Студент умеет проводить декомпозицию временного ряда: тренд, сезонность, шум
Студент умеет проводить backtest
Студент умеет работать с библиотекой etna для анализа временных рядов и обучения авторегрессионных моделей
Студент умеет обучать решающие деревья для решения задач регрессии и классификации
Студент понимает, как можно объединить несколько моделей в ансамбль (композицию) моделей
Студент умеет решать задачу регрессии с помощью моделей случайного леса и градиентного бустинга

Содержание учебной дисциплины

Компоненты машинного обучения
Дизайн экспериментов с моделями МО
Линейные модели МО для решения задач классификации
Метрические подходы МО для решения задач прогнозирования
Метрические подходы МО для решения задач кластеризации объектов
Практикум "Градиентный бустинг и случайный лес: как правильно обучать модели в аналитике"
Решающие деревья, композиции: градиентный бустинг и случайный лес

Элементы контроля

Домашнее тестовое задание к разделам (урокам) 1-8.
Практические задания к разделам (урокам) 1-8.

Промежуточная аттестация

2025/2026 3rd module
Итоговая оценка соответствует сумме баллов за выполненные задания на LMS karpov.courses, приведенные к 10-балльной шкале (см. таблицу). Для каждого задания на LMS-платформе karpov.courses определён дедлайн в 14 календарных дней, после наступления которого студенту начисляется 70% от итогового балла за задание.

Список литературы

Авторы

Ахмедова Гюнай Интигам кызы
Паточенко Евгений Анатольевич

Программа дисциплины