• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2025/2026

Машинное обучение для решения задач аналитики

Статус: Маго-лего
Когда читается: 3 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3
Контактные часы: 40

Программа дисциплины

Аннотация

На курсе студенты изучат методы машинного обучения, необходимые для эффективного решения нетривиальных аналитических задач. Погрузятся в процесс проектирования и реализации сложных дизайнов экспериментов, используя несколько моделей машинного обучения одновременно, а также углубятся в способности адаптировать спецификацию задачи в соответствии с требованиями бизнеса. В ходе обучения студенты освоят разнообразные методы обработки и валидации данных для их использования в моделях машинного обучения, а также научатся критически выбирать наиболее подходящие модели и эффективно их обучать. Они приобретут умение оценивать и сравнивать различные модели с использованием соответствующих метрик, а также интерпретировать результаты для выработки прогностических выводов, направленных на решение конкретных бизнес-задач.
Цель освоения дисциплины

Цель освоения дисциплины

  • Проектировать и реализовывать дизайн экспериментов разного уровня глубины и ширины с несколькими моделями машинного обучения в контексте решения аналитических и исследовательских задач.
  • Проводить этап спецификации задачи, декомпозируя и описывая аналитическую задачу в терминах машинного обучения, а также экспериментировать со спецификацией в зависимости от бизнес-требований.
  • Обрабатывать и валидировать данные для использования в моделях машинного обучения различными способами.
  • Выбирать релевантную аналитической задаче модель машинного обучения для экспериментирования, и обучать ее.
  • Оценивать и сравнивать модели машинного обучения по выбранной метрике.
  • Интерпретировать финальные результаты выбранной модели для составления прогнозов по бизнес-задачам.
Планируемые результаты обучения

Планируемые результаты обучения

  • Студент может декомпозировать аналитическую задачу и описать её в терминах машинного обучения (проделать работу на первом этапе пайплайна - спецификация)
  • Студент может оценить результат применения модели машинного обучения с помощью функции ошибки (метрики)
  • Студент умеет строить линейную регрессию в Python с помощью библиотеки sklearn и интерпретировать ее [модели] результаты
  • Студент понимает, с чем можно экспериментировать в процессе решения задачи машинного обучения и на каких этапах работы это делать
  • Студент умеет применять стратегию валидации данных
  • Студент умеет обрабатывать данные для использования в обучении моделей МО, применяя такие способы как: чистка, заполнение пропусков, выделение новых признаков, кодировка категориальных признаков и масштабирование
  • Студент умеет настраивать автоматическую обработку данных с помощью пайплайна обработки и писать кастомные селекторы и трансформеры
  • Студент умеет обучать расширенные версии линейной регрессии Lasso и Ridge в рамках экспериментов с моделями линейной регрессии
  • Студент умеет считать метрики для обученных моделей, сравнивать модели и выбирать наилучшие
  • Студент понимает суть задачи классификации и методов её решения с точки зрения математики и может перевести аналитическую задачу в задачу классификации для решения с помощью методов машинного обучения
  • Студент умеет использовать модели логистической регрессии и SVM для решения задачи классификации
  • Студент умеет оценивать результат модели с помощью метрик классификации
  • Студент умеет калибровать результаты модели под оценку вероятностей
  • Студент знает, какие существуют подходы решения задачи множественной классификации
  • Студент умеет интерпретировать результаты модели логистической регрессии в задаче классификации
  • Студент понимает концепцию метрического подхода в задачах регрессии и классификации
  • Студент умеет использовать алгоритм kNN с учетом его ограничений для решения задачи прогнозирования
  • Студент понимает, как использовать алгоритм kNN для заполнения пропусков в данных
  • Студент умеет подбирать лучшие параметры для обучения kNN
  • Студент умеет применять стратифицированную стратегию валидации данных
  • Студент понимает, что выбор лучшей модели может зависеть не только от значения метрики, но и от необходимости интерпретировать результат
  • Студент понимает, как проводить подготовку фичей (feature engineering) и их отбор (feature selection) для повышения качества модели
  • Студент понимает, в чем особенность задачи кластеризации
  • Студент умеет применять два подхода кластеризации объектов
  • Студент умеет считать метрики оценки качества кластеризации
  • Студент умеет визуализировать полученный результат кластеризации и интерпретировать полученные кластеры
  • Студент может перевести аналитическую задачу на данных с временной структурой в задачу прогнозирования временных рядов для решения её методами машинного обучения
  • Студент понимает, как решать задачу прогнозирования временных рядов с помощью авторегрессионного подхода
  • Студент умеет решать задачу прогнозирования временных рядов с помощью расширенных моделей авторегрессии (ARIMA, SARIMA, SARIMAX) и модели prophet
  • Студент умеет проводить декомпозицию временного ряда: тренд, сезонность, шум
  • Студент умеет проводить backtest
  • Студент умеет работать с библиотекой etna для анализа временных рядов и обучения авторегрессионных моделей
  • Студент умеет обучать решающие деревья для решения задач регрессии и классификации
  • Студент понимает, как можно объединить несколько моделей в ансамбль (композицию) моделей
  • Студент умеет решать задачу регрессии с помощью моделей случайного леса и градиентного бустинга
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Компоненты машинного обучения
  • Дизайн экспериментов с моделями МО
  • Линейные модели МО для решения задач классификации
  • Метрические подходы МО для решения задач прогнозирования
  • Метрические подходы МО для решения задач кластеризации объектов
  • Практикум "Градиентный бустинг и случайный лес: как правильно обучать модели в аналитике"
  • Решающие деревья, композиции: градиентный бустинг и случайный лес
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее тестовое задание к разделам (урокам) 1-8.
  • неблокирующий Практические задания к разделам (урокам) 1-8.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 3rd module
    Итоговая оценка соответствует сумме баллов за выполненные задания на LMS karpov.courses, приведенные к 10-балльной шкале (см. таблицу). Для каждого задания на LMS-платформе karpov.courses определён дедлайн в 14 календарных дней, после наступления которого студенту начисляется 70% от итогового балла за задание.
Список литературы

Список литературы

Рекомендуемая основная литература

  • SQL. Полное руководство, Грофф, Дж., 2018
  • Построение запросов и программирование на SQL : учеб. пособие для вузов, Маркин, А. В., 2008

Рекомендуемая дополнительная литература

  • SQL: быстрое погружение. - 978-5-4461-1835-9 - Шилдс Уолтер - 2022 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/389413 - 389413 - iBOOKS

Авторы

  • Ахмедова Гюнай Интигам кызы
  • Паточенко Евгений Анатольевич