• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2025/2026

Обучение с подкреплением (углубленный курс)

Когда читается: 3-й курс, 3, 4 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 6
Контактные часы: 80

Программа дисциплины

Аннотация

Курс «Введение в обучение с подкреплением» рассматривает область обучения с подкреплением (Reinforcement Learning, RL) — одного из центральных направлений современного искусственного интеллекта. Он охватывает как базовые принципы и классические алгоритмы, так и современные методы, применяемые сегодня для решения задач в робототехнике, управлении, играх и обучении крупных нейросетевых моделей. Курс рассчитан на слушателей, знакомых с основами машинного обучения, методами оптимизации и базовыми нейросетевыми архитектурами. В ходе курса студенты познакомятся с ключевыми идеями и алгоритмами RL — от фундаментальных подходов к оптимизации поведения до современных специализированных направлений. Первая часть курса посвящена базовым методам обучения с подкреплением, включая как табличные, так и нейросетевые реализации: методы на основе функции полезности (включая DQN и его модификации), прямую оптимизацию стратегии (Policy Gradient) и гибридные подходы семейства Actor–Critic. Во второй части будут рассмотрены отдельные специализированные области RL, такие как модельное обучение, офлайн- и имитационное обучение, целевое обучение (goal-conditioned) и другие. Курс предполагает знакомство с основными направлениями и их взаимосвязями, формируя целостное представление о современном обучении с подкреплением. Курс сочетает теоретические лекции и практические занятия, на которых студенты реализуют ключевые алгоритмы и анализируют их поведение в интерактивных средах (на Python с использованием библиотеки Gymnasium). Такой формат позволяет не только освоить математические и интуитивные основы RL, но и получить практические навыки построения и оценки обучающихся агентов.
Цель освоения дисциплины

Цель освоения дисциплины

  • Понимать формализм MDP и различия между value-based и policy-based подходами.
  • Уметь выводить и реализовывать алгоритмы Policy Gradient и Actor-Critic.
  • Понимать принципы trust-region методов (TRPO, PPO).
  • Уметь работать с алгоритмами для непрерывных действий (DDPG, TD3, SAC).
  • Понимать разницу между on-policy, off-policy и offline RL.
  • Реализовывать goal-conditioned и model-based методы.
  • Понимать архитектуры и алгоритмы multi-agent RL.
  • Разбираться в иерархическом RL и SMDP формализме.
  • Понимать методы RLHF (PPO/DPO/GRPO) и их связь с классическим RL.
  • Анализировать проблемы обобщения и памяти в RL.
Планируемые результаты обучения

Планируемые результаты обучения

  • Может самостоятельно реализовать базовые и продвинутые RL-алгоритмы.
  • Умеет проводить корректные RL-эксперименты.
  • Понимает типичные источники нестабильности обучения.
  • Способен читать и критически анализировать статьи по Deep RL.
  • Понимает современные направления (RLHF, multimodal RL, memory RL).
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Intro to RL, что таке среда, стратегия, MDP, POMDP
  • Табличные методы: Q-learning, SARSA
  • Нейросетевая аппроксимация в RL. DQN и его адаптации
  • Policy optimization. Policy Gradient methods. Actor-Critic: PG, REINFORCE, AC, baselines, A2C
  • TD, n-step TD, TD(λ), GAE
  • Trust Region: TRPO, PPO
  • Continuous control: DDPG, TD3, SAC
  • Vectorized RL. RNN + RL
  • Imitation Learning. Offline RL. CQL
  • Goal-conditioned RL: UVFA, HER
  • Model-based RL. Planning. Intrinsic motivation
  • Multi-agent RL: IPPO, MAPPO, QMIX
  • RLHF: PPO, DPO, GRPO
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
    DQN и его адаптации. После лекции по DQN. Ноутбук с пропущенным кодом, который студент должен заполнить
  • неблокирующий Домашнее задание 2
    Continuous RL, Exploration После лекции по continuous методам. Ноутбук с пропущенным кодом, который студент должен заполнить
  • неблокирующий Домашнее задание 3
    Imitation Learning, Offline RL После лекции по offline rl. Ноутбук с пропущенным кодом, который студент должен заполнить
  • неблокирующий Коллоквиум
    Коллоквиум проводится аналогично устному экзамену — в устной форме, возможно проведение в аудитории или на платформе Zoom или Яндекс.Телемост. Коллокивум проводится в конце первой половины курса (лекции 1-7) и направлен на проверку знаний основ обучения с подкреплением и выявление для самих студентов пробелов в их знаниях. Студент получает билет с двумя вопросами по материалу лекций 1-7. В начале подготовки можно использовать любые материалы, в том числе электронные. Через 20 мин объявляется просьба отложить любые материалы, начиная с этого момента пользоваться любыми дополнительными материалами запрещено. После ответа студенту могут быть заданы дополнительные вопросы по программе 1-7 лекций, а также предложены мини-задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений и дополнительных устройств.
  • неблокирующий Экзамен
    Экзамен проводится в устной форме, возможно проведение в аудитории или на платформе Zoom или Яндекс.Телемост. Экзамен проводится по окончанию курса и направлен на проверку знаний по всей программе курса. Студент получает билет с двумя вопросами: один — по материалу лекций 1-8, другой — по материалам лекций 10-14. В начале подготовки разрешено использовать любые материалы, в том числе электронные. Через 20 мин объявляется просьба отложить электронные устройства и бумажные материалы. Начиная с этого момента, пользоваться любыми дополнительными материалами запрещено. После ответа студенту могут быть заданы дополнительные вопросы по программе 1-14 лекций, а также предложены мини-задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений и дополнительных устройств.
  • неблокирующий Активность
    Бонус за активность (А) начисляется за активное участие в курсе: уточняющие вопросы к преподавателям, ответы на их вопросы во время занятий, активная работа на семинарах, дополнительно проведенная работа в рамках семинарских и домашних заданий, а также за исключительное качество их выполнения (чистота и удобство чтения кода, качество отчета и т.п.). Данный бонус рассматривается в качестве поощрения вовлеченности студентов в прохождение курса.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 4th module
    Итог = Округление[МИН(100, 0.1 * А + 0.2 * К + 0.4 * ДЗ + 0.4 * Э) / 10] А — бонус за активность на лекциях и семинарах (пояснение ниже), К — оценка за коллоквиум, ДЗ — средняя оценка за все домашние задания, Э — оценка за экзамен, МИН — минимум из аргументов, Округление арифметическое.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Обучение с подкреплением для реальных задач: Пер. с англ. - 978-5-9775-6885-2 - Уиндер Ф. - 2022 - Санкт-Петербург: БХВ-Петербург - https://ibooks.ru/products/386481 - 386481 - iBOOKS
  • Саттон, Р. С. Обучение с подкреплением: введение : руководство / Р. С. Саттон, Э. Д. Барто , перевод с английского А. А. Слинкина. — Москва : ДМК Пресс, 2020. — 552 с. — ISBN 978-5-97060-097-9. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/179453 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Никитин, П. В., Машинное обучение с подкреплением : учебник / П. В. Никитин, С. А. Корчагин, Е. В. Романова. — Москва : КноРус, 2026. — 236 с. — ISBN 978-5-406-15268-3. — URL: https://book.ru/book/959175 (дата обращения: 09.12.2025). — Текст : электронный.

Авторы

  • Кононова Елизавета Дмитриевна