• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2025/2026

Мультимодальные нейронные сети

Статус: Маго-лего
Когда читается: 2 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3
Контактные часы: 28

Программа дисциплины

Аннотация

Дисциплина обеспечивает системное введение в область мультимодального глубокого обучения. Курс охватывает путь от фундаментальных концепций, таких как унимодальные энкодеры и контрастивное обучение, до продвинутых архитектур. Ключевой фокус смещен на современные мультимодальные большие языковые модели (MLLM), методы их эффективного дообучения и применение для решения таких практических задач, таких как Visual Question Answering (VQA).
Цель освоения дисциплины

Цель освоения дисциплины

  • Сформировать у студентов системное представление о современных методах и архитектурах мультимодального обучения.
  • Цель курса - дать глубокое понимание принципов работы с различными модальностями (текст, изображение, аудио, видео), от фундаментальных концепций до передовых мультимодальных больших языковых моделей (MLLM).
  • Студенты научатся применять, дообучать и критически оценивать state-of-the-art модели для решения практических задач.
Планируемые результаты обучения

Планируемые результаты обучения

  • Объяснять фундаментальные задачи мультимодальности и принципы контрастивного обучения.
  • Различать и выбирать подходящие унимодальные энкодеры для обработки различных типов данных: изображений, аудио и видео.
  • Анализировать и применять различные стратегии слияния модальностей, включая раннее, позднее, совместное слияние и кросс-модальное внимание.
  • Описывать архитектуру и принципы работы ключевых мультимодальных моделей для задач VQA, ITM, grounding, captioning и генерации (text-to-image, Stable Diffusion).
  • Понимать устройство Multimodal LLMs (MLLM) и объяснять современные подходы к их дообучению: адаптеры, SFT, DPO, MM-RLHF и RAG.
  • Применять подходы для снижения галлюцинаций в MLLM.
  • Критически оценивать качество и производительность мультимодальных моделей, используя релевантные бенчмарки и метрики, а также понимать их ограничения.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы мультимодальности
  • Контрастивное обучение и CLIP/CLAP
  • Унимодальные энкодеры
  • Мультимодальное слияние и совместные энкодеры
  • Генеративные мультимодальные модели
  • Multimodal LLMs (MLLM)
  • Оценка VLM и MLLM: бенчмарки и создание датасетов
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1.
    Обучение линейного адаптера CLAP для отображения аудио векторов в текстовое пространство CLIP на датасете AudioCaps.
  • неблокирующий Домашнее задание 2.
    Добавление аудио- или визуального входа (на выбор) в QWEN 0.5B. Адаптация модели для генерации описаний изображений на датасете Flickr30k.
  • неблокирующий Домашнее задание 3.
    Реализация системы Visual Question Answering (VQA) с использованием подхода Retrieval-Augmented Generation (RAG).
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    0.3 * Домашнее задание 1. + 0.3 * Домашнее задание 2. + 0.4 * Домашнее задание 3.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Нейронные сети : полный курс, Хайкин, С., 2006

Рекомендуемая дополнительная литература

  • Данилов, В. В. Нейронные сети : учебное пособие / В. В. Данилов. — Донецк : ДонГУ, 2020. — 158 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/179953 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Авторы

  • Ахмедова Гюнай Интигам кызы