2024/2025




Мультимодальные нейронные сети
Статус:
Маго-лего
Когда читается:
2 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Жестков Борис Григорьевич
Язык:
русский
Кредиты:
3
Программа дисциплины
Аннотация
Дисциплина посвящена современным архитектурам мультимодальных нейросетей и генеративных моделей. Курс охватывает модели, работающие с изображениями, аудио, видео и текстом, исследует методы контрастивного обучения, архитектуры типа CLIP, BLIP, VQGAN, DALL-E, а также механизмы генерации и токенизации мультимодальных данных. Лекции сопровождаются разбором практических задач и исследований, а также домашними заданиями по обучению адаптеров и генерации описаний по мультимодальному входу.
Цель освоения дисциплины
- Познакомить студентов с архитектурами современных мультимодальных генеративных моделей.
- Научить использовать предобученные энкодеры и обучать адаптеры для мультимодальных задач.
- Развить понимание особенностей работы с изображениями, аудио и видео в генеративных моделях.
- Дать практические навыки оценки качества генерации с использованием автоматических метр
Планируемые результаты обучения
- Научатся понимать принципы построения и функционирования мультимодальных нейронных сетей
Содержание учебной дисциплины
- Введение в мультимодальные нейросети
- Контрастивное обучение и CLIP/CLAP
- Модели text2image
- Мультимодальные энкодеры
- Аудиомодальность и её представление
- Визуальная модальность и архитектуры визуальных энкодеров
- Видео как модальность и работа с видеопотоками
Промежуточная аттестация
- 2024/2025 2nd module0.5 × ДЗ1 + 0.5 × ДЗ2 + 0.2 × ДЗ3; максимум = 10 баллов
Список литературы
Рекомендуемая основная литература
- Deep learning, Goodfellow, I., 2016
- Dhariwal, P., & Nichol, A. (2021). Diffusion Models Beat GANs on Image Synthesis.
- Глубокое обучение с точки зрения практика, Паттерсон, Дж., 2018
Рекомендуемая дополнительная литература
- Mehryar Mohri, Afshin Rostamizadeh, & Ameet Talwalkar. (2018). Foundations of Machine Learning, Second Edition. The MIT Press.