Бакалавриат
2025/2026




Трансформерные и мультимодальные модели
Статус:
Курс по выбору (Прикладная математика и информатика)
Когда читается:
4-й курс, 1, 2 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Программа дисциплины
Аннотация
Курс делится на две части:
1. Natural Language Processing (NLP) — это область искусственного интеллекта, направленная на решение задач, связанных с обработкой человеческого языка, таких как извлечение информации, машинный перевод, автоматическое суммирование и диалоговые системы. За последние годы мы увидели значительный прогресс благодаря статистическому и глубокому обучению. Демонстрация возможностей современных диалоговых систем по типу ChatGPT от OpenAI позволила нам переосмыслить перспективы NLP в повседневной жизни, что привлекло к области внимание как со стороны исследователей и инженеров, так и институциональных инвесторов, готовых финансировать бурный рост отрасли.
2. Мультимодальные нейронные сети. Дисциплина посвящена современным архитектурам мультимодальных нейросетей и генеративных моделей. Курс охватывает модели, работающие с изображениями, аудио, видео и текстом, исследует методы контрастивного обучения, архитектуры типа CLIP, BLIP, VQGAN, DALL-E, а также механизмы генерации и токенизации мультимодальных данных. Лекции сопровождаются разбором практических задач и исследований, а также домашними заданиями по обучению адаптеров и генерации описаний по мультимодальному входу.
Цель освоения дисциплины
- Познакомить слушателя с ключевыми направлениями современного развития области, сформировать понимание запросов, с которыми сталкиваются инженеры и исследователи в повседневной работе.
- Развить понимание фундаментальных концепций, необходимых для самостоятельного решения задач как прикладного, так и исследовательского характера.
- Познакомить слушателя с инструментами, необходимыми для решения прикладных задач.
- Познакомить студентов с архитектурами современных мультимодальных генеративных моделей.
- Научить использовать предобученные энкодеры и обучать адаптеры для мультимодальных задач.
- Развить понимание особенностей работы с изображениями, аудио и видео в генеративных моделях.
- Дать практические навыки оценки качества генерации с использованием автоматических метрик
Планируемые результаты обучения
- Использует современные трансформерные модели в решении прикладных задач;
- Проводит исследования, связанные с трансформерными и другими нейросетевыми архитектурами;
- Понимает сильные и слабые стороны различных трансформерных моделей, способов их обучения/дообучения, ограничения в использовании.
- Описывает назначение и принципы работы мультимодальных моделей
- Применяет методы контрастивного обучения в мультимодальных задачах
- Использует модели типа CLIP, VQGAN, DALL-E, QWEN-Audio для генерации мультимодального контента
- Обучает адаптеры для генерации описаний аудио или изображений
- Понимает различие между токенами и проекциями в аудиомодальности
- Анализирует генерацию по метрикам качества (например, BERTScore)
Содержание учебной дисциплины
- Карта задач и методов NLP, эмбеддинги слов (word embeddings)
- Классификация текста
- Seq2seq
- Трансформер
- Transfer learning
- Обучение Больших языковых моделей (Large Language Models): Обучение с нуля vs Тонкая настройка (finetuning).
- Reinforcement Learning From Human Feedback (RLHF), Direct Preference Optimization (DPO)
- Retrieval-Augmented (RAG) LLM, Tool calling, обзор системы вокруг LLM
- Практические подходы для эффективного обучения и развертывания LLM
- Практика промпт-инжиниринга
- Основы мультимодальности
- Контрастивное обучение: CLIP/CLAP и zero-shot
- Унимодальные энкодеры: текст, зрение, аудио, видео
- Мультимодальное слияние и совместные энкодеры
- Генеративные мультимодальные модели
- Multimodal LLMs (MLLM)
- Оценка VLM и MLLM: бенчмарки и создание датасетов
Элементы контроля
- Домашние заданияПрограммой курса предусмотрены **3 (три)** обязательных домашних задания. ### Обязательные: - (20%) Неделя 2. Обучение эмбеддингов с помощью библиотеки fasttext, реализация движка поиска эмбеддинга-ответа по запросу в векторной БД. - (20%) Неделя 4. Тонкая настройка (fine-tuning) BERT на собственных данных, обучение GPT - (20%) Неделя 5. Тонкая настройка LLM с помощью PEFT.
- Промежуточное тестированиеПрограммой курса предусмотрено промежуточное тестирование в формате multiple choice.
- Устный экзаменПрограммой курса предусмотрен устный экзамен, в рамках которого студентам будет предложено тянуть случайный билет с вопросом по пройденному материалу.
- Домашнее задание 1Обучение линейного адаптера CLAP для отображения аудио векторов в текстовое пространство CLIP на датасете AudioCaps.
- Домашнее задание 2Добавление аудио входа в модель QWEN 0.5B и обучение адаптера для аудио без размораживания энкодера и LLM. Анализ метрик, генерация описаний.
- Домашнее задание 3 (бонус)Добавление визуального входа в QWEN 0.5B. Адаптация модели для генерации описаний изображений на датасете Flickr30k.
Промежуточная аттестация
- 2025/2026 2nd moduleИтог первый модуль = 0.6*домашние задания + 0.1*промежуточное тестирование + 0.3*устный экзамен Итог второй модуль = Максимум из: 1/3 * ДЗ1 + 1/3 * ДЗ2 + 1/3 * ДЗ3; максимум = 10 баллов Итог = 0.5*первый модуль + 0.5*второй модуль