Бакалавриат
2025/2026





Обучение с подкреплением (углубленный курс)
Статус:
Курс по выбору (Прикладная математика и информатика)
Где читается:
Факультет компьютерных наук
Когда читается:
3-й курс, 3, 4 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
6
Контактные часы:
80
Программа дисциплины
Аннотация
Курс «Введение в обучение с подкреплением» рассматривает область обучения с подкреплением (Reinforcement Learning, RL) — одного из центральных направлений современного искусственного интеллекта. Он охватывает как базовые принципы и классические алгоритмы, так и современные методы, применяемые сегодня для решения задач в робототехнике, управлении, играх и обучении крупных нейросетевых моделей. Курс рассчитан на слушателей, знакомых с основами машинного обучения, методами оптимизации и базовыми нейросетевыми архитектурами.
В ходе курса студенты познакомятся с ключевыми идеями и алгоритмами RL — от фундаментальных подходов к оптимизации поведения до современных специализированных направлений. Первая часть курса посвящена базовым методам обучения с подкреплением, включая как табличные, так и нейросетевые реализации: методы на основе функции полезности (включая DQN и его модификации), прямую оптимизацию стратегии (Policy Gradient) и гибридные подходы семейства Actor–Critic. Во второй части будут рассмотрены отдельные специализированные области RL, такие как модельное обучение, офлайн- и имитационное обучение, целевое обучение (goal-conditioned) и другие. Курс предполагает знакомство с основными направлениями и их взаимосвязями, формируя целостное представление о современном обучении с подкреплением.
Курс сочетает теоретические лекции и практические занятия, на которых студенты реализуют ключевые алгоритмы и анализируют их поведение в интерактивных средах (на Python с использованием библиотеки Gymnasium). Такой формат позволяет не только освоить математические и интуитивные основы RL, но и получить практические навыки построения и оценки обучающихся агентов.
Цель освоения дисциплины
- Понимать формализм MDP и различия между value-based и policy-based подходами.
- Уметь выводить и реализовывать алгоритмы Policy Gradient и Actor-Critic.
- Понимать принципы trust-region методов (TRPO, PPO).
- Уметь работать с алгоритмами для непрерывных действий (DDPG, TD3, SAC).
- Понимать разницу между on-policy, off-policy и offline RL.
- Реализовывать goal-conditioned и model-based методы.
- Понимать архитектуры и алгоритмы multi-agent RL.
- Разбираться в иерархическом RL и SMDP формализме.
- Понимать методы RLHF (PPO/DPO/GRPO) и их связь с классическим RL.
- Анализировать проблемы обобщения и памяти в RL.
Планируемые результаты обучения
- Может самостоятельно реализовать базовые и продвинутые RL-алгоритмы.
- Умеет проводить корректные RL-эксперименты.
- Понимает типичные источники нестабильности обучения.
- Способен читать и критически анализировать статьи по Deep RL.
- Понимает современные направления (RLHF, multimodal RL, memory RL).
Содержание учебной дисциплины
- Intro to RL, что таке среда, стратегия, MDP, POMDP
- Табличные методы: Q-learning, SARSA
- Нейросетевая аппроксимация в RL. DQN и его адаптации
- Policy optimization. Policy Gradient methods. Actor-Critic: PG, REINFORCE, AC, baselines, A2C
- TD, n-step TD, TD(λ), GAE
- Trust Region: TRPO, PPO
- Continuous control: DDPG, TD3, SAC
- Vectorized RL. RNN + RL
- Imitation Learning. Offline RL. CQL
- Goal-conditioned RL: UVFA, HER
- Model-based RL. Planning. Intrinsic motivation
- Multi-agent RL: IPPO, MAPPO, QMIX
- RLHF: PPO, DPO, GRPO
Элементы контроля
- Домашнее задание 1DQN и его адаптации. После лекции по DQN. Ноутбук с пропущенным кодом, который студент должен заполнить
- Домашнее задание 2Continuous RL, Exploration После лекции по continuous методам. Ноутбук с пропущенным кодом, который студент должен заполнить
- Домашнее задание 3Imitation Learning, Offline RL После лекции по offline rl. Ноутбук с пропущенным кодом, который студент должен заполнить
- КоллоквиумКоллоквиум проводится аналогично устному экзамену — в устной форме, возможно проведение в аудитории или на платформе Zoom или Яндекс.Телемост. Коллокивум проводится в конце первой половины курса (лекции 1-7) и направлен на проверку знаний основ обучения с подкреплением и выявление для самих студентов пробелов в их знаниях. Студент получает билет с двумя вопросами по материалу лекций 1-7. В начале подготовки можно использовать любые материалы, в том числе электронные. Через 20 мин объявляется просьба отложить любые материалы, начиная с этого момента пользоваться любыми дополнительными материалами запрещено. После ответа студенту могут быть заданы дополнительные вопросы по программе 1-7 лекций, а также предложены мини-задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений и дополнительных устройств.
- ЭкзаменЭкзамен проводится в устной форме, возможно проведение в аудитории или на платформе Zoom или Яндекс.Телемост. Экзамен проводится по окончанию курса и направлен на проверку знаний по всей программе курса. Студент получает билет с двумя вопросами: один — по материалу лекций 1-8, другой — по материалам лекций 10-14. В начале подготовки разрешено использовать любые материалы, в том числе электронные. Через 20 мин объявляется просьба отложить электронные устройства и бумажные материалы. Начиная с этого момента, пользоваться любыми дополнительными материалами запрещено. После ответа студенту могут быть заданы дополнительные вопросы по программе 1-14 лекций, а также предложены мини-задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений и дополнительных устройств.
- АктивностьБонус за активность (А) начисляется за активное участие в курсе: уточняющие вопросы к преподавателям, ответы на их вопросы во время занятий, активная работа на семинарах, дополнительно проведенная работа в рамках семинарских и домашних заданий, а также за исключительное качество их выполнения (чистота и удобство чтения кода, качество отчета и т.п.). Данный бонус рассматривается в качестве поощрения вовлеченности студентов в прохождение курса.
Промежуточная аттестация
- 2025/2026 4th moduleИтог = Округление[МИН(100, 0.1 * А + 0.2 * К + 0.4 * ДЗ + 0.4 * Э) / 10] А — бонус за активность на лекциях и семинарах (пояснение ниже), К — оценка за коллоквиум, ДЗ — средняя оценка за все домашние задания, Э — оценка за экзамен, МИН — минимум из аргументов, Округление арифметическое.
Список литературы
Рекомендуемая основная литература
- Обучение с подкреплением для реальных задач: Пер. с англ. - 978-5-9775-6885-2 - Уиндер Ф. - 2022 - Санкт-Петербург: БХВ-Петербург - https://ibooks.ru/products/386481 - 386481 - iBOOKS
- Саттон, Р. С. Обучение с подкреплением: введение : руководство / Р. С. Саттон, Э. Д. Барто , перевод с английского А. А. Слинкина. — Москва : ДМК Пресс, 2020. — 552 с. — ISBN 978-5-97060-097-9. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/179453 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Никитин, П. В., Машинное обучение с подкреплением : учебник / П. В. Никитин, С. А. Корчагин, Е. В. Романова. — Москва : КноРус, 2026. — 236 с. — ISBN 978-5-406-15268-3. — URL: https://book.ru/book/959175 (дата обращения: 09.12.2025). — Текст : электронный.