• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2025/2026

Обработка естественного языка - 2 часть

Статус: Маго-лего
Когда читается: 2 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3
Контактные часы: 26

Программа дисциплины

Аннотация

Language Processing 2 (NLP‑2) — курс для продвинутых студентов, успешно освоивших основы NLP‑1. Фокусируется на современных архитектурах больших языковых моделей (Mixture of Experts, sparse attention), инженерных методах оптимизации инференса (flash attention, KV-cache, квантизация) и инфраструктуре (GPU, сервера). Рассматривает подготовку данных, построение пайплайнов, профилирование моделей и мониторинг сервисов. Включает практические задания и итоговый проект для закрепления навыков разработки и исследования языковых моделей.
Цель освоения дисциплины

Цель освоения дисциплины

  • понимать концепцию эмбеддинга, способы построения статичных (word2vec) и контекстно-зависимых эмбеддингов (BERT)
  • понимать архитектуру и принципы работы seq2seq‑моделей на основе RNN (GRU, LSTM) и трансформеров;
  • разбираться в нюансах обучения BERT (и основанных на нем архитектур), а также GPT моделей;
  • понимать механизмы токенизации (BPE, WordPiece, SentencePiece) и генерации (Greedy, Top-P, Top-k, Beam search, Temperature) текстовых данных;
  • владеть концепциями transfer learning: fine‑tuning, PEFT (LoRA, IA3, soft prompting), понимать пайплайн обучения LLM (pre‑training, post‑training);
  • понимать принципы RLHF e.g. DPO, PPO;
  • комфортно владеть инструментами: Python, NumPy, Pandas, PyTorch, bash.
Планируемые результаты обучения

Планируемые результаты обучения

  • Разбираются принципы эволюции архитектуры и методы повышения эффективности моделей.
  • Изучаются принципы аппаратной и программной оптимизации при работе с LLM.
  • Построение систем с дополнительными хранилищами знаний.
  • Изучается архитектура агентных LLM и протоколы межсистемного взаимодействия.
  • Фокус на обеспечении надёжности и контроле качества данных на всех этапах жизненного цикла системы.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Архитектура трансформеров: развитие и модификации
  • Оптимизация инференса и вычислительная инфраструктура
  • Retrieval‑Augmented Generation (RAG)
  • Reinforcement Learning from Human Feedback (RLHF)
  • Агентные системы
  • Мониторинг, качество данных и безопасность LLM‑сервисов
  • Архитектура LLM‑сервиса
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания
    - (20%) Неделя 2. Домашнее задание 1. Модификация архитектуры трансформера - (20%) Неделя 3. Домашнее задание 2. Разработка end-to-end сервиса с RAG - (20%) Неделя 5. Домашнее задание 3. Разработка агенсткого сервиса
  • неблокирующий Промежуточное тестирование
    Программой курса предусмотрено промежуточное тестирование в формате multiple choice.
  • неблокирующий Итоговый проект
    Программой курса предусмотрен итоговый проект для проверки полученных в рамках прохождения дисциплины навыков.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    60% (домашние задания) + 15% (промежуточное тестирование) + 25% (итоговый проект)
Список литературы

Список литературы

Рекомендуемая основная литература

  • Dale R., Moisl H., Somers H. (ed.). Handbook of natural language processing. – CRC Press, 2000. – 1015 pp.
  • Ilharco, G., Ilharco, C., Turc, I., Dettmers, T., Ferreira, F., & Lee, K. (2020). High Performance Natural Language Processing. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Tutorial Abstracts. https://doi.org/10.18653/v1/2020.emnlp-tutorials.4
  • Introduction to natural language processing, Eisenstein, J., 2019
  • Yang Liu, & Meng Zhang. (2018). Neural Network Methods for Natural Language Processing. Computational Linguistics, (1), 193. https://doi.org/10.1162/COLI_r_00312

Рекомендуемая дополнительная литература

  • Обработка естественного языка c использованием языка программирования Python : учебное пособие : в 2 частях / составитель А. Б. Мантусов. — Элиста : КГУ, 2022 — Часть 1 — 2022. — 56 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/360923 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Авторы

  • Ахмедова Гюнай Интигам кызы