2025/2026





Мультимодальные нейронные сети
Статус:
Маго-лего
Где читается:
Факультет компьютерных наук
Когда читается:
2 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Бурлова Альбина Сергеевна
Язык:
русский
Кредиты:
3
Контактные часы:
28
Программа дисциплины
Аннотация
Дисциплина обеспечивает системное введение в область мультимодального глубокого обучения. Курс охватывает путь от фундаментальных концепций, таких как унимодальные энкодеры и контрастивное обучение, до продвинутых архитектур. Ключевой фокус смещен на современные мультимодальные большие языковые модели (MLLM), методы их эффективного дообучения и применение для решения таких практических задач, таких как Visual Question Answering (VQA).
Цель освоения дисциплины
- Сформировать у студентов системное представление о современных методах и архитектурах мультимодального обучения.
- Цель курса - дать глубокое понимание принципов работы с различными модальностями (текст, изображение, аудио, видео), от фундаментальных концепций до передовых мультимодальных больших языковых моделей (MLLM).
- Студенты научатся применять, дообучать и критически оценивать state-of-the-art модели для решения практических задач.
Планируемые результаты обучения
- Объяснять фундаментальные задачи мультимодальности и принципы контрастивного обучения.
- Различать и выбирать подходящие унимодальные энкодеры для обработки различных типов данных: изображений, аудио и видео.
- Анализировать и применять различные стратегии слияния модальностей, включая раннее, позднее, совместное слияние и кросс-модальное внимание.
- Описывать архитектуру и принципы работы ключевых мультимодальных моделей для задач VQA, ITM, grounding, captioning и генерации (text-to-image, Stable Diffusion).
- Понимать устройство Multimodal LLMs (MLLM) и объяснять современные подходы к их дообучению: адаптеры, SFT, DPO, MM-RLHF и RAG.
- Применять подходы для снижения галлюцинаций в MLLM.
- Критически оценивать качество и производительность мультимодальных моделей, используя релевантные бенчмарки и метрики, а также понимать их ограничения.
Содержание учебной дисциплины
- Основы мультимодальности
- Контрастивное обучение и CLIP/CLAP
- Унимодальные энкодеры
- Мультимодальное слияние и совместные энкодеры
- Генеративные мультимодальные модели
- Multimodal LLMs (MLLM)
- Оценка VLM и MLLM: бенчмарки и создание датасетов
Элементы контроля
- Домашнее задание 1.Обучение линейного адаптера CLAP для отображения аудио векторов в текстовое пространство CLIP на датасете AudioCaps.
- Домашнее задание 2.Добавление аудио- или визуального входа (на выбор) в QWEN 0.5B. Адаптация модели для генерации описаний изображений на датасете Flickr30k.
- Домашнее задание 3.Реализация системы Visual Question Answering (VQA) с использованием подхода Retrieval-Augmented Generation (RAG).
Промежуточная аттестация
- 2025/2026 2nd module0.3 * Домашнее задание 1. + 0.3 * Домашнее задание 2. + 0.4 * Домашнее задание 3.
Список литературы
Рекомендуемая основная литература
- Нейронные сети : полный курс, Хайкин, С., 2006
Рекомендуемая дополнительная литература
- Данилов, В. В. Нейронные сети : учебное пособие / В. В. Данилов. — Донецк : ДонГУ, 2020. — 158 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/179953 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.