2025/2026





Машинное обучение для решения задач аналитики
Статус:
Маго-лего
Где читается:
Факультет компьютерных наук
Когда читается:
3 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Паточенко Евгений Анатольевич
Язык:
русский
Кредиты:
3
Контактные часы:
40
Программа дисциплины
Аннотация
На курсе студенты изучат методы машинного обучения, необходимые для эффективного решения нетривиальных аналитических задач. Погрузятся в процесс проектирования и реализации сложных дизайнов экспериментов, используя несколько моделей машинного обучения одновременно, а также углубятся в способности адаптировать спецификацию задачи в соответствии с требованиями бизнеса. В ходе обучения студенты освоят разнообразные методы обработки и валидации данных для их использования в моделях машинного обучения, а также научатся критически выбирать наиболее подходящие модели и эффективно их обучать. Они приобретут умение оценивать и сравнивать различные модели с использованием соответствующих метрик, а также интерпретировать результаты для выработки прогностических выводов, направленных на решение конкретных бизнес-задач.
Цель освоения дисциплины
- Проектировать и реализовывать дизайн экспериментов разного уровня глубины и ширины с несколькими моделями машинного обучения в контексте решения аналитических и исследовательских задач.
- Проводить этап спецификации задачи, декомпозируя и описывая аналитическую задачу в терминах машинного обучения, а также экспериментировать со спецификацией в зависимости от бизнес-требований.
- Обрабатывать и валидировать данные для использования в моделях машинного обучения различными способами.
- Выбирать релевантную аналитической задаче модель машинного обучения для экспериментирования, и обучать ее.
- Оценивать и сравнивать модели машинного обучения по выбранной метрике.
- Интерпретировать финальные результаты выбранной модели для составления прогнозов по бизнес-задачам.
Планируемые результаты обучения
- Студент может декомпозировать аналитическую задачу и описать её в терминах машинного обучения (проделать работу на первом этапе пайплайна - спецификация)
- Студент может оценить результат применения модели машинного обучения с помощью функции ошибки (метрики)
- Студент умеет строить линейную регрессию в Python с помощью библиотеки sklearn и интерпретировать ее [модели] результаты
- Студент понимает, с чем можно экспериментировать в процессе решения задачи машинного обучения и на каких этапах работы это делать
- Студент умеет применять стратегию валидации данных
- Студент умеет обрабатывать данные для использования в обучении моделей МО, применяя такие способы как: чистка, заполнение пропусков, выделение новых признаков, кодировка категориальных признаков и масштабирование
- Студент умеет настраивать автоматическую обработку данных с помощью пайплайна обработки и писать кастомные селекторы и трансформеры
- Студент умеет обучать расширенные версии линейной регрессии Lasso и Ridge в рамках экспериментов с моделями линейной регрессии
- Студент умеет считать метрики для обученных моделей, сравнивать модели и выбирать наилучшие
- Студент понимает суть задачи классификации и методов её решения с точки зрения математики и может перевести аналитическую задачу в задачу классификации для решения с помощью методов машинного обучения
- Студент умеет использовать модели логистической регрессии и SVM для решения задачи классификации
- Студент умеет оценивать результат модели с помощью метрик классификации
- Студент умеет калибровать результаты модели под оценку вероятностей
- Студент знает, какие существуют подходы решения задачи множественной классификации
- Студент умеет интерпретировать результаты модели логистической регрессии в задаче классификации
- Студент понимает концепцию метрического подхода в задачах регрессии и классификации
- Студент умеет использовать алгоритм kNN с учетом его ограничений для решения задачи прогнозирования
- Студент понимает, как использовать алгоритм kNN для заполнения пропусков в данных
- Студент умеет подбирать лучшие параметры для обучения kNN
- Студент умеет применять стратифицированную стратегию валидации данных
- Студент понимает, что выбор лучшей модели может зависеть не только от значения метрики, но и от необходимости интерпретировать результат
- Студент понимает, как проводить подготовку фичей (feature engineering) и их отбор (feature selection) для повышения качества модели
- Студент понимает, в чем особенность задачи кластеризации
- Студент умеет применять два подхода кластеризации объектов
- Студент умеет считать метрики оценки качества кластеризации
- Студент умеет визуализировать полученный результат кластеризации и интерпретировать полученные кластеры
- Студент может перевести аналитическую задачу на данных с временной структурой в задачу прогнозирования временных рядов для решения её методами машинного обучения
- Студент понимает, как решать задачу прогнозирования временных рядов с помощью авторегрессионного подхода
- Студент умеет решать задачу прогнозирования временных рядов с помощью расширенных моделей авторегрессии (ARIMA, SARIMA, SARIMAX) и модели prophet
- Студент умеет проводить декомпозицию временного ряда: тренд, сезонность, шум
- Студент умеет проводить backtest
- Студент умеет работать с библиотекой etna для анализа временных рядов и обучения авторегрессионных моделей
- Студент умеет обучать решающие деревья для решения задач регрессии и классификации
- Студент понимает, как можно объединить несколько моделей в ансамбль (композицию) моделей
- Студент умеет решать задачу регрессии с помощью моделей случайного леса и градиентного бустинга
Содержание учебной дисциплины
- Компоненты машинного обучения
- Дизайн экспериментов с моделями МО
- Линейные модели МО для решения задач классификации
- Метрические подходы МО для решения задач прогнозирования
- Метрические подходы МО для решения задач кластеризации объектов
- Практикум "Градиентный бустинг и случайный лес: как правильно обучать модели в аналитике"
- Решающие деревья, композиции: градиентный бустинг и случайный лес
Элементы контроля
- Домашнее тестовое задание к разделам (урокам) 1-8.
- Практические задания к разделам (урокам) 1-8.
Промежуточная аттестация
- 2025/2026 3rd moduleИтоговая оценка соответствует сумме баллов за выполненные задания на LMS karpov.courses, приведенные к 10-балльной шкале (см. таблицу). Для каждого задания на LMS-платформе karpov.courses определён дедлайн в 14 календарных дней, после наступления которого студенту начисляется 70% от итогового балла за задание.
Список литературы
Рекомендуемая основная литература
- SQL. Полное руководство, Грофф, Дж., 2018
- Построение запросов и программирование на SQL : учеб. пособие для вузов, Маркин, А. В., 2008
Рекомендуемая дополнительная литература
- SQL: быстрое погружение. - 978-5-4461-1835-9 - Шилдс Уолтер - 2022 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/389413 - 389413 - iBOOKS