Методы мультиагентного обучения с подкреплением в условиях частичной наблюдаемости и динамических средMethods of multi-agent reinforcement learning for partial observability and dynamic environment

Соискатель:

Малышева Александра Ивановна

Руководитель:

Суворова Алёна Владимировна (др. работы под рук-вом)

Члены комитета:

Калягин Валерий Александрович (НИУ ВШЭ, д.ф.-м.н., председатель комитета), Николенко Сергей Игоревич (Санкт-Петербургское отделение Математического института им. В.А. Стеклова РАН, д.ф.-м.н., член комитета), Скрынник Алексей Александрович (Автономная некоммерческая организация "Институт искусственного интеллекта" (AIRI), к.ф.-м.н., член комитета), Тихонова Мария Ивановна (Сбербанк, к.комп.н., член комитета), Ханжина Наталья Евгеньевна (Stikitty, к.т.н., член комитета)

Диссертация принята к предварительному рассмотрению:

5/29/2025

Диссертация принята к защите:

8/7/2025

Дисс. совет:

Совет по компьютерным наукам

Дата защиты:

10/16/2025

Диссертация посвящена разработке методов мультиагентного обучения с подкреплением в условиях частичной наблюдаемости и динамической неопределённости. Исследование фокусируется на создании инновационных подходов, которые повышают устойчивость и адаптивность поведения агентов в сложных сценариях. В частности, в работе представлен метод скрытых потенциалов для ускоренного обучения моторным навыкам без ручной настройки функций вознаграждения, механизм релевантностного взаимодействия (MAGNet) для улучшения координации агентов, архитектура трансформера для отслеживания объектов (DOTCL) с круговой функцией потерь для повышения точности визуального восприятия, а также модель DeepNash, адаптирующая регуляризованную динамику Нэша к играм с частичной информацией и демонстрирующая экспертный уровень в игре Stratego. Предложенные методы реализованы в программных прототипах и протестированы в мультиагентных средах MALMO, Pommerman и Stratego.

Диссертация [*.pdf, 3.01 Мб] (дата размещения 8/13/2025)

Резюме [*.pdf, 1.67 Мб] (дата размещения 8/13/2025)

Summary [*.pdf, 1.49 Мб] (дата размещения 8/13/2025)

Публикации, в которых излагаются основные результаты диссертации

Chockalingam V., Sung T.T., Behbahani F., Gargeya R., Sivanantham A., Malysheva A. Extending World Models for Multi-Agent Reinforcement Learning in MALMO (смотреть на сайте журнала)

Malysheva A., Kudenko D., Shpilman A. Learning to Run with Potential-Based Reward Shaping and Demonstrations from Video Data (смотреть на сайте журнала)

Malysheva A., Kudenko D., Shpilman A. MAGNet: Multi-agent Graph Network for Deep Multi-agent Reinforcement Learning (смотреть на сайте журнала)

Belyaev V., Malysheva A., Shpilman A. End-to-end Deep Object Tracking with Circular Loss Function for Rotated Bounding Box (смотреть на сайте журнала)

Kidziński Ł., Ong C., Mohanty S.P., …, Malysheva A. et al. Artificial Intelligence for Prosthetics: Challenge Solutions (смотреть на сайте журнала)

Perolat J., Vylder B. De, Hennes D., …, Malysheva A. et al. Mastering the game of Stratego with model-free multiagent reinforcement learning (смотреть на сайте журнала)

Отзывы

Отзыв научного руководителя

Суворова Алёна Владимировна (дата размещения 6/4/2025)

Отзыв члена Комитета

Тихонова Мария Ивановна (дата размещения 10/8/2025)
Калягин Валерий Александрович (дата размещения 10/8/2025)
Ханжина Наталья Евгеньевна (дата размещения 10/8/2025)
Скрынник Алексей Александрович (дата размещения 10/8/2025)
Николенко Сергей Игоревич (дата размещения 10/8/2025)

Сведения о результатах защиты:

Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол № 2 от 16.10.2025). Решением диссертационного совета (протокол № 10 от 31.10.2025) присуждена ученая степень кандидата компьютерных наук.

Ключевые слова:

мультиагентное обучение, обучение с подкреплением, стратегические игры, частичная наблюдаемость

См. на ту же тему

Приложение машинного обучения к теоретико-игровым задачам: аукционы и марковские игрыКандидатская диссертация

Соискатель: Иванов Дмитрий Игоревич
Руководитель: Нестеров Александр Сергеевич
Дата защиты: 12/27/2024

Нейрокогнитивные механизмы социального влияния (на примере конформизма)Докторская диссертация

Соискатель: Ключарёв Василий Андреевич
Дата защиты: 9/24/2024

Разработка методов машинного обучения с подкреплением для управления робототехническими устройствами и виртуальными агентамиКандидатская диссертация

Соискатель: Сорокин Дмитрий Игоревич
Руководитель: Львовский Александр Исаевич
Дата защиты: 6/1/2023