Обучение с подкреплением (углубленный курс)

Бакалавриат 2025/2026

Статус: Курс по выбору (Прикладная математика и информатика)

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 3-й курс, 3, 4 модуль

Охват аудитории: для своего кампуса

Преподаватели: Зелезецкий Даниил Владимирович, Кудеров Петр Викторович

Язык: русский

Кредиты: 6

Контактные часы: 80

Дополнительные материалы в LMS Задать вопрос

Аннотация

Курс «Введение в обучение с подкреплением» рассматривает область обучения с подкреплением (Reinforcement Learning, RL) — одного из центральных направлений современного искусственного интеллекта. Он охватывает как базовые принципы и классические алгоритмы, так и современные методы, применяемые сегодня для решения задач в робототехнике, управлении, играх и обучении крупных нейросетевых моделей. Курс рассчитан на слушателей, знакомых с основами машинного обучения, методами оптимизации и базовыми нейросетевыми архитектурами. В ходе курса студенты познакомятся с ключевыми идеями и алгоритмами RL — от фундаментальных подходов к оптимизации поведения до современных специализированных направлений. Первая часть курса посвящена базовым методам обучения с подкреплением, включая как табличные, так и нейросетевые реализации: методы на основе функции полезности (включая DQN и его модификации), прямую оптимизацию стратегии (Policy Gradient) и гибридные подходы семейства Actor–Critic. Во второй части будут рассмотрены отдельные специализированные области RL, такие как модельное обучение, офлайн- и имитационное обучение, целевое обучение (goal-conditioned) и другие. Курс предполагает знакомство с основными направлениями и их взаимосвязями, формируя целостное представление о современном обучении с подкреплением. Курс сочетает теоретические лекции и практические занятия, на которых студенты реализуют ключевые алгоритмы и анализируют их поведение в интерактивных средах (на Python с использованием библиотеки Gymnasium). Такой формат позволяет не только освоить математические и интуитивные основы RL, но и получить практические навыки построения и оценки обучающихся агентов.

Цель освоения дисциплины

Понимать формализм MDP и различия между value-based и policy-based подходами.
Уметь выводить и реализовывать алгоритмы Policy Gradient и Actor-Critic.
Понимать принципы trust-region методов (TRPO, PPO).
Уметь работать с алгоритмами для непрерывных действий (DDPG, TD3, SAC).
Понимать разницу между on-policy, off-policy и offline RL.
Реализовывать goal-conditioned и model-based методы.
Понимать архитектуры и алгоритмы multi-agent RL.
Разбираться в иерархическом RL и SMDP формализме.
Понимать методы RLHF (PPO/DPO/GRPO) и их связь с классическим RL.
Анализировать проблемы обобщения и памяти в RL.

Планируемые результаты обучения

Может самостоятельно реализовать базовые и продвинутые RL-алгоритмы.
Умеет проводить корректные RL-эксперименты.
Понимает типичные источники нестабильности обучения.
Способен читать и критически анализировать статьи по Deep RL.
Понимает современные направления (RLHF, multimodal RL, memory RL).

Содержание учебной дисциплины

Intro to RL, что таке среда, стратегия, MDP, POMDP
Табличные методы: Q-learning, SARSA
Нейросетевая аппроксимация в RL. DQN и его адаптации
Policy optimization. Policy Gradient methods. Actor-Critic: PG, REINFORCE, AC, baselines, A2C
TD, n-step TD, TD(λ), GAE
Trust Region: TRPO, PPO
Continuous control: DDPG, TD3, SAC
Vectorized RL. RNN + RL
Imitation Learning. Offline RL. CQL
Goal-conditioned RL: UVFA, HER
Model-based RL. Planning. Intrinsic motivation
Multi-agent RL: IPPO, MAPPO, QMIX
RLHF: PPO, DPO, GRPO

Элементы контроля

Домашнее задание 1
DQN и его адаптации. После лекции по DQN. Ноутбук с пропущенным кодом, который студент должен заполнить
Домашнее задание 2
Continuous RL, Exploration После лекции по continuous методам. Ноутбук с пропущенным кодом, который студент должен заполнить
Домашнее задание 3
Imitation Learning, Offline RL После лекции по offline rl. Ноутбук с пропущенным кодом, который студент должен заполнить
Коллоквиум
Коллоквиум проводится аналогично устному экзамену — в устной форме, возможно проведение в аудитории или на платформе Zoom или Яндекс.Телемост. Коллокивум проводится в конце первой половины курса (лекции 1-7) и направлен на проверку знаний основ обучения с подкреплением и выявление для самих студентов пробелов в их знаниях. Студент получает билет с двумя вопросами по материалу лекций 1-7. В начале подготовки можно использовать любые материалы, в том числе электронные. Через 20 мин объявляется просьба отложить любые материалы, начиная с этого момента пользоваться любыми дополнительными материалами запрещено. После ответа студенту могут быть заданы дополнительные вопросы по программе 1-7 лекций, а также предложены мини-задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений и дополнительных устройств.
Экзамен
Экзамен проводится в устной форме, возможно проведение в аудитории или на платформе Zoom или Яндекс.Телемост. Экзамен проводится по окончанию курса и направлен на проверку знаний по всей программе курса. Студент получает билет с двумя вопросами: один — по материалу лекций 1-8, другой — по материалам лекций 10-14. В начале подготовки разрешено использовать любые материалы, в том числе электронные. Через 20 мин объявляется просьба отложить электронные устройства и бумажные материалы. Начиная с этого момента, пользоваться любыми дополнительными материалами запрещено. После ответа студенту могут быть заданы дополнительные вопросы по программе 1-14 лекций, а также предложены мини-задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений и дополнительных устройств.
Активность
Бонус за активность (А) начисляется за активное участие в курсе: уточняющие вопросы к преподавателям, ответы на их вопросы во время занятий, активная работа на семинарах, дополнительно проведенная работа в рамках семинарских и домашних заданий, а также за исключительное качество их выполнения (чистота и удобство чтения кода, качество отчета и т.п.). Данный бонус рассматривается в качестве поощрения вовлеченности студентов в прохождение курса.

Промежуточная аттестация

2025/2026 4th module
Итог = Округление[МИН(100, 0.1 * А + 0.2 * К + 0.4 * ДЗ + 0.4 * Э) / 10] А — бонус за активность на лекциях и семинарах (пояснение ниже), К — оценка за коллоквиум, ДЗ — средняя оценка за все домашние задания, Э — оценка за экзамен, МИН — минимум из аргументов, Округление арифметическое.

Список литературы

Авторы

Кононова Елизавета Дмитриевна

Программа дисциплины