• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2024/2025

Обучение с подкреплением

Статус: Маго-лего
Когда читается: 3 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3

Программа дисциплины

Аннотация

Обучение с подкреплением - отдельная парадигма машинного обучения, посвященная методам для принятия решений в условиях неопределенности. В отличие от традиционных методов машинного обучения, алгоритмы RL обучаются методом проб и ошибок, взаимодействуя со средой, моделирующей поведение той или иной системы.
Цель освоения дисциплины

Цель освоения дисциплины

  • Ознакомление студентов с основными подходами и алгоритмами обучения с подкреплением;
  • Планируется дать понимание того, какие существуют подходы к решению задач обучения с подкреплением;
  • Научить выбирать алгоритм, наиболее подходящий для рассматриваемой студентом задачи;
  • Научить обучать модели с использованием современных нейросетевых библиотек.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать основные понятия RL и постановку оптимизационной задачи;
  • Знать и понимать вывод уравнений Беллмана;
  • Знать теорию и уметь применять алгоритмы Policy Iteration и Value Iteration на практике.
  • Понимать отличие model-based и model-free подходов;
  • Понимать концепцию Temporal Difference Learning;
  • Знать отличия алгоритмов Q-learning от алгоритмов из семейства SARSA;
  • Знать отличия алгоритмов Q-learning от алгоритмов из семейства SARSA, уметь применять их на практике для стандартных сред.
  • Вспомнить концепцию аппроксимации функций с помощью нейронных сетей;
  • Вспомнить концепцию сверточных слоев;
  • Знать алгоритм DQN и его недостатки;
  • Понимать природу различных модификаций;
  • Уметь применять на практике для различных сред, в том числе компьютерных игр Atari.
  • Понимать вывод формулы градиента по стратегии, использующий log derivative trick;
  • Понимать алгоритм REINFORCE и методы снижения дисперсии оценки стохастического градиента, концепции Advantage функции и ее использовании для понижения дисперсии, концепции Actor-Critic в общем и алгоритмов A3C и A2C в частности.
  • Вспомнить разложение функции по формуле Тейлора в окрестности точки;
  • Понимать концепцию оптимизации в пространстве с произвольной метрикой, заданной симметричной положительно определенной матрицей;
  • Знать алгоритмы TRPO и PPO, уметь применять их на практике для стандартных сред.
  • Знать особенности применения RL алгоритмов к задачам с непрерывным пространством действий;
  • Знать алгоритмы DDPG, TD3 и SAC для решения задачи непрерывного управления, уметь применять их на практике.
  • Знать отличия оффлайн парадигмы от онлайн;
  • Знать алгоритмы CQL, IQL, Decision Transformer.
  • Понимать отличие в постановке задачи Многорукого бандита от постановки задачи классического RL;
  • Понимать теоретические основания для оценок сверху и снизу на Regret;
  • Понимать неэффективность эпсилон-жадных алгоритмов для задачи Многорукого бандита;
  • Понимать теоретические основания, лежащие за алгоритмами UCB и Thompson Sampling, уметь применять их на практике.
  • Вспомнить отличие model-based от model-free подхода;
  • Понимать особенности планирования в RL средах;
  • Изучить алгоритмы планирования от классических до современных, узнать способы построения аппроксимации для среды.
  • Кратко изучить весь пайплайн обучения LLM, сфокусировав внимание на последней стадии “выравнивания” модели с человеческими предпочтениями;
  • В деталях изучить подход RLHF и его использование в контексте LLM: обучение Reward model, файнтюнинг с помощью PPO.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Bellman Equations and Dynamic Programming
  • Model-free RL
  • DQN и его модификации
  • Policy Gradients Methods, Actor-Critic framework
  • Advanced Policy Gradients Methods
  • Continuous Control
  • Offline RL
  • Multi-armed Bandits
  • Model-based RL
  • RL in a context of LLM
Элементы контроля

Элементы контроля

  • неблокирующий HW1
  • неблокирующий HW2
  • неблокирующий HW3
  • неблокирующий HW4
  • неблокирующий HW5
  • неблокирующий RC
  • неблокирующий TA
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 3rd module
    МИН(10, 10 * (0.65 * HW / 20 + 0.1 * TA / 9 + 0.25 * RC / 5)), где HW — сумма за 4 домашних задания (1 простая и 3 сложные, с потенциальными 8.75 баллами бонусом), RC — оценка за видео-презентацию статьи, посвященной новым алгоритмам или неожиданными применениям RL парадигмы в индустрии, TA – оценки за квизы. Мягкий дедлайн объявляется в день выдачи домашнего задания и обычно составляет 1 неделю для простых и 2 недели для сложных домашних заданий. Жесткий дедлайн, после которого сдавать задачи разрешается только в рамках пересдачи, наступает через неделю после мягкого. Кроме того, за каждый день просрочки после мягкого дедлайна снимается по 5% от максимального балла. (Пример: если студент сдает задание, максимальный балл за который 2, на следующий день после мягкого дедлайна, то максимальный балл за это задание - 1.9, если на второй день после мягкого дедлайна - 1.8 и так далее)
Список литературы

Список литературы

Рекомендуемая основная литература

  • Обучение с подкреплением, Саттон, Р. С., 2011

Рекомендуемая дополнительная литература

  • Li, Y. (2017). Deep Reinforcement Learning: An Overview. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.281A6E8D

Авторы

  • Ахмедова Гюнай Интигам кызы