Введение в машинное обучение

2024/2025

Статус: Маго-лего

Кто читает: Департамент больших данных и информационного поиска

Когда читается: 4 модуль

Охват аудитории: для своего кампуса

Преподаватели: Гаврилова Елизавета Владимировна

Язык: русский

Кредиты: 3

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

Курс направлен на знакомство с концепциями машинного обучения, алгоритмами и инструментами для их практического применения. В рамках курса изучаются базовые алгоритмы регрессии, классификации, кластеризации, методы снижения размерности, способы подбора метрик, а также способы оптимизации моделей.

Цель освоения дисциплины

Подготовка студентов к дальнейшему изучению продвинутых курсов и применению полученных компетенций в профессиональной деятельности.

Планируемые результаты обучения

Получение навыка по исследованию датасета и предобработке данных для дальнейшего моделирования.
После изучения раздела о линейной регрессии, студенты должны понимать основные принципы её работы, включая использование метода наименьших квадратов и градиентного спуска для нахождения коэффициентов.
Научатся реализовывать линейную регрессию с применением стохастического градиентного спуска, а также полиномиальную регрессию для моделирования нелинейных зависимостей.
Смогут применять методы регуляризации (Lasso и Ridge) для улучшения обобщающей способности модели и использования различных метрик (MSE, RMSE, R², MAE, MAPE) для оценки её качества.
Освоят реализацию линейной регрессии в библиотеке Scikit-learn, включая визуализацию результатов и анализ эффективности модели в реальных задачах.
Студенты должны овладеть пониманием различных типов классификации, включая бинарную, мультиклассовую и мульти-таргет классификацию.
Будут знать, как применять регуляризацию в логистической регрессии для улучшения обобщающей способности модели, а также освоят методы борьбы с дисбалансом классов, такие как SMOTE, undersampling и oversampling.
Научатся оценивать качество модели классификации с помощью различных метрик, таких как Accuracy, Precision, Recall, ROC-AUC и F1-score, и смогут применять их для анализа эффективности моделей в реальных задачах классификации.
После изучения основ работы с решающими деревьями, студенты должны овладеть ключевыми понятиями, такими как узел, лист, глубина, корень и разбиение дерева, а также понимать критерии разбиения, включая Gini impurity, Entropy для классификации и MSE для регрессии.
Научатся подбирать гиперпараметры решающих деревьев для оптимизации их работы и смогут эффективно работать с проблемами недообучения и переобучения, используя различные методы настройки и ограничения модели для повышения её обобщающей способности.
После изучения методов извлечения признаков и отбора признаков, студенты должны овладеть техникой понижения размерности, включая методы отбора признаков и снижения признакового пространства.
Освоят различные методы отбора признаков, такие как Filter, Wrapper и Embedded, а также научатся применять продвинутые виды кросс-валидации, включая Grid Search и Random Search для оптимизации моделей.
Познакомятся с концепцией AutoML, что позволит им автоматизировать процесс выбора модели и гиперпараметров для повышения эффективности и точности машинного обучения.
После изучения ансамблевых методов, студенты должны понимать, что такое ансамбли и почему они часто показывают лучшие результаты, чем одиночные деревья.
Освоят принцип работы бэггинга, включая алгоритм случайного леса и бутстрап-выборку, а также научатся подбирать гиперпараметры для улучшения производительности модели.
Будут знакомы с бустингом, его алгоритмами, такими как AdaBoost, GradientBoost, XGBoost, LGBM и CatBoost, а также методом стекинга.
Смогут оценивать преимущества и недостатки ансамблей, понимать, когда их использование не оправдано, и освоят автоматизацию подбора гиперпараметров с помощью Optuna.