• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2025/2026

Трансформерные и мультимодальные модели

Когда читается: 4-й курс, 1, 2 модуль
Охват аудитории: для своего кампуса
Язык: русский

Программа дисциплины

Аннотация

Курс делится на две части: 1. Natural Language Processing (NLP) — это область искусственного интеллекта, направленная на решение задач, связанных с обработкой человеческого языка, таких как извлечение информации, машинный перевод, автоматическое суммирование и диалоговые системы. За последние годы мы увидели значительный прогресс благодаря статистическому и глубокому обучению. Демонстрация возможностей современных диалоговых систем по типу ChatGPT от OpenAI позволила нам переосмыслить перспективы NLP в повседневной жизни, что привлекло к области внимание как со стороны исследователей и инженеров, так и институциональных инвесторов, готовых финансировать бурный рост отрасли. 2. Мультимодальные нейронные сети. Дисциплина посвящена современным архитектурам мультимодальных нейросетей и генеративных моделей. Курс охватывает модели, работающие с изображениями, аудио, видео и текстом, исследует методы контрастивного обучения, архитектуры типа CLIP, BLIP, VQGAN, DALL-E, а также механизмы генерации и токенизации мультимодальных данных. Лекции сопровождаются разбором практических задач и исследований, а также домашними заданиями по обучению адаптеров и генерации описаний по мультимодальному входу.
Цель освоения дисциплины

Цель освоения дисциплины

  • Познакомить слушателя с ключевыми направлениями современного развития области, сформировать понимание запросов, с которыми сталкиваются инженеры и исследователи в повседневной работе.
  • Развить понимание фундаментальных концепций, необходимых для самостоятельного решения задач как прикладного, так и исследовательского характера.
  • Познакомить слушателя с инструментами, необходимыми для решения прикладных задач.
  • Познакомить студентов с архитектурами современных мультимодальных генеративных моделей.
  • Научить использовать предобученные энкодеры и обучать адаптеры для мультимодальных задач.
  • Развить понимание особенностей работы с изображениями, аудио и видео в генеративных моделях.
  • Дать практические навыки оценки качества генерации с использованием автоматических метрик
Планируемые результаты обучения

Планируемые результаты обучения

  • Использует современные трансформерные модели в решении прикладных задач;
  • Проводит исследования, связанные с трансформерными и другими нейросетевыми архитектурами;
  • Понимает сильные и слабые стороны различных трансформерных моделей, способов их обучения/дообучения, ограничения в использовании.
  • Описывает назначение и принципы работы мультимодальных моделей
  • Применяет методы контрастивного обучения в мультимодальных задачах
  • Использует модели типа CLIP, VQGAN, DALL-E, QWEN-Audio для генерации мультимодального контента
  • Обучает адаптеры для генерации описаний аудио или изображений
  • Понимает различие между токенами и проекциями в аудиомодальности
  • Анализирует генерацию по метрикам качества (например, BERTScore)
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Карта задач и методов NLP, эмбеддинги слов (word embeddings)
  • Классификация текста
  • Seq2seq
  • Трансформер
  • Transfer learning
  • Обучение Больших языковых моделей (Large Language Models): Обучение с нуля vs Тонкая настройка (finetuning).
  • Reinforcement Learning From Human Feedback (RLHF), Direct Preference Optimization (DPO)
  • Retrieval-Augmented (RAG) LLM, Tool calling, обзор системы вокруг LLM
  • Практические подходы для эффективного обучения и развертывания LLM
  • Практика промпт-инжиниринга
  • Основы мультимодальности
  • Контрастивное обучение: CLIP/CLAP и zero-shot
  • Унимодальные энкодеры: текст, зрение, аудио, видео
  • Мультимодальное слияние и совместные энкодеры
  • Генеративные мультимодальные модели
  • Multimodal LLMs (MLLM)
  • Оценка VLM и MLLM: бенчмарки и создание датасетов
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания
    Программой курса предусмотрены **3 (три)** обязательных домашних задания. ### Обязательные: - (20%) Неделя 2. Обучение эмбеддингов с помощью библиотеки fasttext, реализация движка поиска эмбеддинга-ответа по запросу в векторной БД. - (20%) Неделя 4. Тонкая настройка (fine-tuning) BERT на собственных данных, обучение GPT - (20%) Неделя 5. Тонкая настройка LLM с помощью PEFT.
  • неблокирующий Промежуточное тестирование
    Программой курса предусмотрено промежуточное тестирование в формате multiple choice.
  • неблокирующий Устный экзамен
    Программой курса предусмотрен устный экзамен, в рамках которого студентам будет предложено тянуть случайный билет с вопросом по пройденному материалу.
  • неблокирующий Домашнее задание 1
    Обучение линейного адаптера CLAP для отображения аудио векторов в текстовое пространство CLIP на датасете AudioCaps.
  • неблокирующий Домашнее задание 2
    Добавление аудио входа в модель QWEN 0.5B и обучение адаптера для аудио без размораживания энкодера и LLM. Анализ метрик, генерация описаний.
  • неблокирующий Домашнее задание 3 (бонус)
    Добавление визуального входа в QWEN 0.5B. Адаптация модели для генерации описаний изображений на датасете Flickr30k.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    Итог первый модуль = 0.6*домашние задания + 0.1*промежуточное тестирование + 0.3*устный экзамен Итог второй модуль = Максимум из: 1/3 * ДЗ1 + 1/3 * ДЗ2 + 1/3 * ДЗ3; максимум = 10 баллов Итог = 0.5*первый модуль + 0.5*второй модуль
Список литературы

Список литературы

Рекомендуемая основная литература

  • The hundred-page machine learning book, Burkov, A., 2019

Рекомендуемая дополнительная литература

  • Transformers for machine learning : a deep dive, Kamath, U., 2022

Авторы

  • Кононова Елизавета Дмитриевна