Обучение с подкреплением

Бакалавриат 2024/2025

Статус: Курс по выбору (Прикладная математика и информатика)

Направление: 01.03.02. Прикладная математика и информатика

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 4-й курс, 3 модуль

Формат изучения: без онлайн-курса

Охват аудитории: для своего кампуса

Преподаватели: Лактионов Сергей Дмитриевич

Язык: русский

Кредиты: 4

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

Обучение с подкреплением - отдельная парадигма машинного обучения, посвященная методам для принятия решений в условиях неопределенности. В отличие от традиционных методов машинного обучения, алгоритмы RL обучаются методом проб и ошибок, взаимодействуя со средой, моделирующей поведение той или иной системы.

Цель освоения дисциплины

Ознакомление студентов с основными подходами и алгоритмами обучения с подкреплением. Планируется дать понимание того, какие существуют подходы к решению задач обучения с подкреплением, научить выбирать алгоритм, наиболее подходящий для рассматриваемой студентом задачи, научить обучать модели с использованием современных нейросетевых библиотек.

Планируемые результаты обучения

Знать основные понятия RL и постановку оптимизационной задачи, знать и понимать вывод уравнений Беллмана, знать теорию и уметь применять алгоритмы Policy Iteration и Value Iteration на практике.
Понимать отличие model-based и model-free подходов, понимать концепцию Temporal Difference Learning, знать отличия алгоритмов Q-learning от алгоритмов из семейства SARSA, уметь применять их на практике для стандартных сред.
Вспомнить концепцию аппроксимации функций с помощью нейронных сетей, вспомнить концепцию сверточных слоев, знать алгоритм DQN и его недостатки, понимать природу различных модификаций, уметь применять на практике для различных сред, в том числе компьютерных игр Atari.
Понимать вывод формулы градиента по стратегии, использующий log derivative trick, понимать алгоритм REINFORCE и методы снижения дисперсии оценки стохастического градиента, концепции Advantage функции и ее использовании для понижения дисперсии, концепции Actor-Critic в общем и алгоритмов A3C и A2C в частности.
Вспомнить разложение функции по формуле Тейлора в окрестности точки, понимать концепцию оптимизации в пространстве с произвольной метрикой, заданной симметричной положительно определенной матрицей, знать алгоритмы TRPO и PPO, уметь применять их на практике для стандартных сред.
Знать особенности применения RL алгоритмов к задачам с непрерывным пространством действий, знать алгоритмы DDPG, TD3 и SAC для решения задачи непрерывного управления, уметь применять их на практике.
Знать отличия оффлайн парадигмы от онлайн, знать алгоритмы CQL, IQL, Decision Transformer
Понимать отличие в постановке задачи Многорукого бандита от постановки задачи классического RL, понимать теоретические основания для оценок сверху и снизу на Regret, понимать неэффективность эпсилон-жадных алгоритмов для задачи Многорукого бандита, понимать теоретические основания, лежащие за алгоритмами UCB и Thompson Sampling, уметь применять их на практике.
Вспомнить отличие model-based от model-free подхода, понимать особенности планирования в RL средах, изучить алгоритмы планирования от классических до современных, узнать способы построения аппроксимации для среды.
Кратко изучить весь пайплайн обучения LLM, сфокусировав внимание на последней стадии “выравнивания” модели с человеческими предпочтениями. В деталях изучить подход RLHF и его использование в контексте LLM: обучение Reward model, файнтюнинг с помощью PPO.

Содержание учебной дисциплины

Bellman Equations and Dynamic Programming
Model-free RL
DQN и его модификации
Policy Gradients Methods, Actor-Critic framework
Advanced Policy Gradients Methods
Continuous Control
Offline RL
Multi-armed Bandits
Model-based RL
Reinforcement Learning from Human Feedback

Элементы контроля

Промежуточная аттестация

2024/2025 3rd module
МИН(10, 10 * (0.6 * HW / 14 + 0.1 * TA / 9 + 0.3 * RC / 5)), где HW — сумма за 4 домашних задания (1 простая и 3 сложные, с потенциальными 8.75 баллами бонусом), RC — оценка за видео-презентацию статьи, посвященной новым алгоритмам или неожиданными применениям RL парадигмы в индустрии, TA – оценки за квизы. Мягкий дедлайн объявляется в день выдачи домашнего задания и обычно составляет 1 неделю для простых и 2 недели для сложных домашних заданий. Жесткий дедлайн, после которого сдавать задачи разрешается только в рамках пересдачи, наступает через неделю после мягкого. Кроме того, за каждый день после мягкого дедлайна снимается по 0.1 баллу за простое и 0.2 балла за сложное домашнее задание.

Список литературы

Авторы

Ратников Федор Дмитриевич
Кононова Елизавета Дмитриевна

Программа дисциплины