Обработка естественного языка - 2 часть – Учебные курсы – Национальный исследовательский университет «Высшая школа экономики»

2025/2026

Статус: Маго-лего

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 2 модуль

Охват аудитории: для своего кампуса

Язык: русский

Кредиты: 3

Контактные часы: 26

Дополнительные материалы в LMS Задать вопрос

Аннотация

Language Processing 2 (NLP‑2) — курс для продвинутых студентов, успешно освоивших основы NLP‑1. Фокусируется на современных архитектурах больших языковых моделей (Mixture of Experts, sparse attention), инженерных методах оптимизации инференса (flash attention, KV-cache, квантизация) и инфраструктуре (GPU, сервера). Рассматривает подготовку данных, построение пайплайнов, профилирование моделей и мониторинг сервисов. Включает практические задания и итоговый проект для закрепления навыков разработки и исследования языковых моделей.

Цель освоения дисциплины

понимать концепцию эмбеддинга, способы построения статичных (word2vec) и контекстно-зависимых эмбеддингов (BERT)
понимать архитектуру и принципы работы seq2seq‑моделей на основе RNN (GRU, LSTM) и трансформеров;
разбираться в нюансах обучения BERT (и основанных на нем архитектур), а также GPT моделей;
понимать механизмы токенизации (BPE, WordPiece, SentencePiece) и генерации (Greedy, Top-P, Top-k, Beam search, Temperature) текстовых данных;
владеть концепциями transfer learning: fine‑tuning, PEFT (LoRA, IA3, soft prompting), понимать пайплайн обучения LLM (pre‑training, post‑training);
понимать принципы RLHF e.g. DPO, PPO;
комфортно владеть инструментами: Python, NumPy, Pandas, PyTorch, bash.

Планируемые результаты обучения

Разбираются принципы эволюции архитектуры и методы повышения эффективности моделей.
Изучаются принципы аппаратной и программной оптимизации при работе с LLM.
Построение систем с дополнительными хранилищами знаний.
Изучается архитектура агентных LLM и протоколы межсистемного взаимодействия.
Фокус на обеспечении надёжности и контроле качества данных на всех этапах жизненного цикла системы.

Содержание учебной дисциплины

Архитектура трансформеров: развитие и модификации
Оптимизация инференса и вычислительная инфраструктура
Retrieval‑Augmented Generation (RAG)
Reinforcement Learning from Human Feedback (RLHF)
Агентные системы
Мониторинг, качество данных и безопасность LLM‑сервисов
Архитектура LLM‑сервиса

Элементы контроля

Домашние задания
- (20%) Неделя 2. Домашнее задание 1. Модификация архитектуры трансформера - (20%) Неделя 3. Домашнее задание 2. Разработка end-to-end сервиса с RAG - (20%) Неделя 5. Домашнее задание 3. Разработка агенсткого сервиса
Промежуточное тестирование
Программой курса предусмотрено промежуточное тестирование в формате multiple choice.
Итоговый проект
Программой курса предусмотрен итоговый проект для проверки полученных в рамках прохождения дисциплины навыков.

Промежуточная аттестация

2025/2026 2nd module
60% (домашние задания) + 15% (промежуточное тестирование) + 25% (итоговый проект)

Список литературы

Авторы

Ахмедова Гюнай Интигам кызы

Программа дисциплины

Обработка естественного языка - 2 часть