Мультимодальные нейронные сети

2025/2026

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Лучший по критерию «Новизна полученных знаний»

Статус: Маго-лего

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 2 модуль

Охват аудитории: для своего кампуса

Преподаватели: Бурлова Альбина Сергеевна, Жестков Борис Григорьевич

Язык: русский

Кредиты: 3

Контактные часы: 28

Дополнительные материалы в LMS Задать вопрос

Аннотация

Дисциплина обеспечивает системное введение в область мультимодального глубокого обучения. Курс охватывает путь от фундаментальных концепций, таких как унимодальные энкодеры и контрастивное обучение, до продвинутых архитектур. Ключевой фокус смещен на современные мультимодальные большие языковые модели (MLLM), методы их эффективного дообучения и применение для решения таких практических задач, таких как Visual Question Answering (VQA).

Цель освоения дисциплины

Сформировать у студентов системное представление о современных методах и архитектурах мультимодального обучения.
Цель курса - дать глубокое понимание принципов работы с различными модальностями (текст, изображение, аудио, видео), от фундаментальных концепций до передовых мультимодальных больших языковых моделей (MLLM).
Студенты научатся применять, дообучать и критически оценивать state-of-the-art модели для решения практических задач.

Планируемые результаты обучения

Объяснять фундаментальные задачи мультимодальности и принципы контрастивного обучения.
Различать и выбирать подходящие унимодальные энкодеры для обработки различных типов данных: изображений, аудио и видео.
Анализировать и применять различные стратегии слияния модальностей, включая раннее, позднее, совместное слияние и кросс-модальное внимание.
Описывать архитектуру и принципы работы ключевых мультимодальных моделей для задач VQA, ITM, grounding, captioning и генерации (text-to-image, Stable Diffusion).
Понимать устройство Multimodal LLMs (MLLM) и объяснять современные подходы к их дообучению: адаптеры, SFT, DPO, MM-RLHF и RAG.
Применять подходы для снижения галлюцинаций в MLLM.
Критически оценивать качество и производительность мультимодальных моделей, используя релевантные бенчмарки и метрики, а также понимать их ограничения.

Содержание учебной дисциплины

Основы мультимодальности
Контрастивное обучение и CLIP/CLAP
Унимодальные энкодеры
Мультимодальное слияние и совместные энкодеры
Генеративные мультимодальные модели
Multimodal LLMs (MLLM)
Оценка VLM и MLLM: бенчмарки и создание датасетов

Элементы контроля

Домашнее задание 1.
Обучение линейного адаптера CLAP для отображения аудио векторов в текстовое пространство CLIP на датасете AudioCaps.
Домашнее задание 2.
Добавление аудио- или визуального входа (на выбор) в QWEN 0.5B. Адаптация модели для генерации описаний изображений на датасете Flickr30k.
Домашнее задание 3.
Реализация системы Visual Question Answering (VQA) с использованием подхода Retrieval-Augmented Generation (RAG).

Промежуточная аттестация

2025/2026 2nd module
0.3 * Домашнее задание 1. + 0.3 * Домашнее задание 2. + 0.4 * Домашнее задание 3.

Список литературы

Авторы

Ахмедова Гюнай Интигам кызы

Программа дисциплины