• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2024/2025

Мультимодальные нейронные сети

Статус: Маго-лего
Когда читается: 2 модуль
Охват аудитории: для своего кампуса
Преподаватели: Жестков Борис Григорьевич
Язык: русский
Кредиты: 3

Программа дисциплины

Аннотация

Дисциплина посвящена современным архитектурам мультимодальных нейросетей и генеративных моделей. Курс охватывает модели, работающие с изображениями, аудио, видео и текстом, исследует методы контрастивного обучения, архитектуры типа CLIP, BLIP, VQGAN, DALL-E, а также механизмы генерации и токенизации мультимодальных данных. Лекции сопровождаются разбором практических задач и исследований, а также домашними заданиями по обучению адаптеров и генерации описаний по мультимодальному входу.
Цель освоения дисциплины

Цель освоения дисциплины

  • Познакомить студентов с архитектурами современных мультимодальных генеративных моделей.
  • Научить использовать предобученные энкодеры и обучать адаптеры для мультимодальных задач.
  • Развить понимание особенностей работы с изображениями, аудио и видео в генеративных моделях.
  • Дать практические навыки оценки качества генерации с использованием автоматических метр
Планируемые результаты обучения

Планируемые результаты обучения

  • Научатся понимать принципы построения и функционирования мультимодальных нейронных сетей
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в мультимодальные нейросети
  • Контрастивное обучение и CLIP/CLAP
  • Модели text2image
  • Мультимодальные энкодеры
  • Аудиомодальность и её представление
  • Визуальная модальность и архитектуры визуальных энкодеров
  • Видео как модальность и работа с видеопотоками
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
  • неблокирующий Домашнее задание 2.
  • неблокирующий Домашнее задание 3 (бонус)
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 2nd module
    0.5 × ДЗ1 + 0.5 × ДЗ2 + 0.2 × ДЗ3; максимум = 10 баллов
Список литературы

Список литературы

Рекомендуемая основная литература

  • Deep learning, Goodfellow, I., 2016
  • Dhariwal, P., & Nichol, A. (2021). Diffusion Models Beat GANs on Image Synthesis.
  • Глубокое обучение с точки зрения практика, Паттерсон, Дж., 2018

Рекомендуемая дополнительная литература

  • Mehryar Mohri, Afshin Rostamizadeh, & Ameet Talwalkar. (2018). Foundations of Machine Learning, Second Edition. The MIT Press.

Авторы

  • Яковлева Илона Александровна
  • Кантонистова Елена Олеговна
  • Ахмедова Гюнай Интигам кызы