2025/2026





Обработка естественного языка - 2 часть
Статус:
Маго-лего
Где читается:
Факультет компьютерных наук
Когда читается:
2 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Контактные часы:
26
Программа дисциплины
Аннотация
Language Processing 2 (NLP‑2) — курс для продвинутых студентов, успешно освоивших основы NLP‑1. Фокусируется на современных архитектурах больших языковых моделей (Mixture of Experts, sparse attention), инженерных методах оптимизации инференса (flash attention, KV-cache, квантизация) и инфраструктуре (GPU, сервера). Рассматривает подготовку данных, построение пайплайнов, профилирование моделей и мониторинг сервисов. Включает практические задания и итоговый проект для закрепления навыков разработки и исследования языковых моделей.
Цель освоения дисциплины
- понимать концепцию эмбеддинга, способы построения статичных (word2vec) и контекстно-зависимых эмбеддингов (BERT)
- понимать архитектуру и принципы работы seq2seq‑моделей на основе RNN (GRU, LSTM) и трансформеров;
- разбираться в нюансах обучения BERT (и основанных на нем архитектур), а также GPT моделей;
- понимать механизмы токенизации (BPE, WordPiece, SentencePiece) и генерации (Greedy, Top-P, Top-k, Beam search, Temperature) текстовых данных;
- владеть концепциями transfer learning: fine‑tuning, PEFT (LoRA, IA3, soft prompting), понимать пайплайн обучения LLM (pre‑training, post‑training);
- понимать принципы RLHF e.g. DPO, PPO;
- комфортно владеть инструментами: Python, NumPy, Pandas, PyTorch, bash.
Планируемые результаты обучения
- Разбираются принципы эволюции архитектуры и методы повышения эффективности моделей.
- Изучаются принципы аппаратной и программной оптимизации при работе с LLM.
- Построение систем с дополнительными хранилищами знаний.
- Изучается архитектура агентных LLM и протоколы межсистемного взаимодействия.
- Фокус на обеспечении надёжности и контроле качества данных на всех этапах жизненного цикла системы.
Содержание учебной дисциплины
- Архитектура трансформеров: развитие и модификации
- Оптимизация инференса и вычислительная инфраструктура
- Retrieval‑Augmented Generation (RAG)
- Reinforcement Learning from Human Feedback (RLHF)
- Агентные системы
- Мониторинг, качество данных и безопасность LLM‑сервисов
- Архитектура LLM‑сервиса
Элементы контроля
- Домашние задания- (20%) Неделя 2. Домашнее задание 1. Модификация архитектуры трансформера - (20%) Неделя 3. Домашнее задание 2. Разработка end-to-end сервиса с RAG - (20%) Неделя 5. Домашнее задание 3. Разработка агенсткого сервиса
- Промежуточное тестированиеПрограммой курса предусмотрено промежуточное тестирование в формате multiple choice.
- Итоговый проектПрограммой курса предусмотрен итоговый проект для проверки полученных в рамках прохождения дисциплины навыков.
Промежуточная аттестация
- 2025/2026 2nd module60% (домашние задания) + 15% (промежуточное тестирование) + 25% (итоговый проект)
Список литературы
Рекомендуемая основная литература
- Dale R., Moisl H., Somers H. (ed.). Handbook of natural language processing. – CRC Press, 2000. – 1015 pp.
- Ilharco, G., Ilharco, C., Turc, I., Dettmers, T., Ferreira, F., & Lee, K. (2020). High Performance Natural Language Processing. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Tutorial Abstracts. https://doi.org/10.18653/v1/2020.emnlp-tutorials.4
- Introduction to natural language processing, Eisenstein, J., 2019
- Yang Liu, & Meng Zhang. (2018). Neural Network Methods for Natural Language Processing. Computational Linguistics, (1), 193. https://doi.org/10.1162/COLI_r_00312
Рекомендуемая дополнительная литература
- Обработка естественного языка c использованием языка программирования Python : учебное пособие : в 2 частях / составитель А. Б. Мантусов. — Элиста : КГУ, 2022 — Часть 1 — 2022. — 56 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/360923 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.