Методы мультиагентного обучения с подкреплением в условиях частичной наблюдаемости и динамических средMethods of multi-agent reinforcement learning for partial observability and dynamic environment
Соискатель:
Малышева Александра Ивановна
Руководитель:
Члены комитета:
Калягин Валерий Александрович (НИУ ВШЭ, д.ф.-м.н., председатель комитета), Николенко Сергей Игоревич (Санкт-Петербургское отделение Математического института им. В.А. Стеклова РАН, д.ф.-м.н., член комитета), Скрынник Алексей Александрович (Автономная некоммерческая организация "Институт искусственного интеллекта" (AIRI), к.ф.-м.н., член комитета), Тихонова Мария Ивановна (Сбербанк, к.комп.н., член комитета), Ханжина Наталья Евгеньевна (Stikitty, к.т.н., член комитета)
Диссертация принята к предварительному рассмотрению:
5/29/2025
Диссертация принята к защите:
8/7/2025
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
10/16/2025
Диссертация посвящена разработке методов мультиагентного обучения с подкреплением в условиях частичной наблюдаемости и динамической неопределённости. Исследование фокусируется на создании инновационных подходов, которые повышают устойчивость и адаптивность поведения агентов в сложных сценариях. В частности, в работе представлен метод скрытых потенциалов для ускоренного обучения моторным навыкам без ручной настройки функций вознаграждения, механизм релевантностного взаимодействия (MAGNet) для улучшения координации агентов, архитектура трансформера для отслеживания объектов (DOTCL) с круговой функцией потерь для повышения точности визуального восприятия, а также модель DeepNash, адаптирующая регуляризованную динамику Нэша к играм с частичной информацией и демонстрирующая экспертный уровень в игре Stratego. Предложенные методы реализованы в программных прототипах и протестированы в мультиагентных средах MALMO, Pommerman и Stratego.
Диссертация [*.pdf, 3.01 Мб] (дата размещения 8/13/2025)
Резюме [*.pdf, 1.67 Мб] (дата размещения 8/13/2025)
Summary [*.pdf, 1.49 Мб] (дата размещения 8/13/2025)
Публикации, в которых излагаются основные результаты диссертации
Chockalingam V., Sung T.T., Behbahani F., Gargeya R., Sivanantham A., Malysheva A. Extending World Models for Multi-Agent Reinforcement Learning in MALMO (смотреть на сайте журнала)
Malysheva A., Kudenko D., Shpilman A. Learning to Run with Potential-Based Reward Shaping and Demonstrations from Video Data (смотреть на сайте журнала)
Malysheva A., Kudenko D., Shpilman A. MAGNet: Multi-agent Graph Network for Deep Multi-agent Reinforcement Learning (смотреть на сайте журнала)
Belyaev V., Malysheva A., Shpilman A. End-to-end Deep Object Tracking with Circular Loss Function for Rotated Bounding Box (смотреть на сайте журнала)
Kidziński Ł., Ong C., Mohanty S.P., …, Malysheva A. et al. Artificial Intelligence for Prosthetics: Challenge Solutions (смотреть на сайте журнала)
Perolat J., Vylder B. De, Hennes D., …, Malysheva A. et al. Mastering the game of Stratego with model-free multiagent reinforcement learning (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Суворова Алёна Владимировна (дата размещения 6/4/2025)
Отзыв члена Комитета
- Ханжина Наталья Евгеньевна (дата размещения 10/8/2025)
- Тихонова Мария Ивановна (дата размещения 10/8/2025)
- Николенко Сергей Игоревич (дата размещения 10/8/2025)
- Калягин Валерий Александрович (дата размещения 10/8/2025)
- Скрынник Алексей Александрович (дата размещения 10/8/2025)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол № 2 от 16.10.2025). Решением диссертационного совета (протокол № 10 от 31.10.2025) присуждена ученая степень кандидата компьютерных наук.
См. на ту же тему
Приложение машинного обучения к теоретико-игровым задачам: аукционы и марковские игрыКандидатская диссертация
Соискатель: Иванов Дмитрий Игоревич
Руководитель: Нестеров Александр Сергеевич
Дата защиты: 12/27/2024
Нейрокогнитивные механизмы социального влияния (на примере конформизма)Докторская диссертация
Соискатель: Ключарёв Василий Андреевич
Дата защиты: 9/24/2024
Разработка методов машинного обучения с подкреплением для управления робототехническими устройствами и виртуальными агентамиКандидатская диссертация
Соискатель: Сорокин Дмитрий Игоревич
Руководитель: Львовский Александр Исаевич
Дата защиты: 6/1/2023