Машинное обучение

2024/2025

Статус: Маго-лего

Кто читает: Школа лингвистики

Когда читается: 3, 4 модуль

Охват аудитории: для всех кампусов НИУ ВШЭ

Преподаватели: Баранов Александр Михайлович, Трошин Даниил Юрьевич

Язык: русский

Кредиты: 6

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

Курс знакомит студентов с основами машинного обучения, систематизирует знания о стандартных библиотеках, дает представление о классических, нейронных моделях, об ансамблях моделей, тренирует навык правильной формулировки задачи модели и правильной оценки качества модели.

Цель освоения дисциплины

познакомить студентов с основными задачами и методами машинного обучения
научить применять машинное обучения для решения задач автоматической обработки текстов

Планируемые результаты обучения

анализирует преимущества и недостатки разных алгоритмов классификации
анализирует преимущества и недостатки разных алгоритмов кластеризации, подбирает оптимальное количество классов
воспроизводит и инретпретирует основные термины и понятия, используемые в дальнейшем при освоении курса
выбирает и интерпретирует метрики
использует предобученные модели для получения контекстных векторных представлений
использует слой DropOut для регуляризации, использует предобученные модели для получения представлений картинок
настраивает параметры кластеризации, оценивает качество кластеризации
обучает модели бинарной и многоклассовой классификации
обучает нейронные классификаторы с использованием рекуррентных слоев в keras (gru, lstm), обучает seq2seq модели, использует предобученные векторные представления
обучает нейронные классификаторы с использованием сверточных слоев в keras, подбирает параметры в сверточных слоях
обучает нейронные классификаторы с использованием слоев Embedding, Dense в keras, выбирает нужную функцию потерь и оптимизатор
обучает ранжирующие модели, оценивать результаты ранжирования
обучает регрессионные модели
обучает случайный лес, градиентный бустинг, пользовуется xgboost, lightgbm и catboost, применяет стекинг
отличает accuracy от precision и precision от recall
подбирает параметры (размер батча, количество слоев, размерность эмбедингов)
разбивает выборку на обучающую и тестовую
разбивает выборку на фолды и производит кросс-валидацию
различает макро и микро усреднение
учитывает сбалансированность классов или распределения при разбиении, определяет переобучение