Магистратура
2025/2026





Обработка естественного языка - 1 часть
Статус:
Курс обязательный (Искусственный интеллект)
Где читается:
Факультет компьютерных наук
Когда читается:
2-й курс, 1 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Контактные часы:
20
Программа дисциплины
Аннотация
Natural Language Processing (NLP) — это область искусственного интеллекта, направленная на решение задач, связанных с обработкой человеческого языка, таких как извлечение информации, машинный перевод, автоматическое суммирование и диалоговые системы. За последние годы мы увидели значительный прогресс благодаря статистическому и глубокому обучению. Демонстрация возможностей современных диалоговых систем по типу ChatGPT от OpenAI позволила нам переосмыслить перспективы NLP в повседневной жизни, что привлекло к области внимание как со стороны исследователей и инженеров, так и институциональных инвесторов, готовых финансировать бурный рост отрасли.
Цель освоения дисциплины
- познакомить слушателя с ключевыми направлениями современного развития области, сформировать понимание запросов, с которыми сталкиваются инженеры и исследователи в повседневной работе.
- развить понимание фундаментальных концепций, необходимых для самостоятельного решения задач как прикладного, так и исследовательского характера.
- познакомить слушателя с инструментами, необходимыми для решения прикладных задач.
Планируемые результаты обучения
- Пример работы с Hugging Face, использование готовых библиотек для собственных проектов.
- Знакомство слушателей с Transformers Reinforcement Learning (TRL).
- Демонстрация реального применения квантизованной на этапе обучения и инференса модели.
- Получение эмбеддингов из собственного текста, загрузка предобученных эмбеддингов
- Решение реальной задачи классификации на табличных данных
- Рассмотрение работы seq2seq модели на собственном корпусе текста
Содержание учебной дисциплины
- Карта задач и методов NLP, эмбеддинги слов (word embeddings)
- Классификация текста
- Seq2seq
- Трансформер
- Transfer learning
- Обучение Больших языковых моделей (Large Language Models): Обучение с нуля vs Тонкая настройка (finetuning).
- Reinforcement Learning From Human Feedback (RLHF), Direct Preference Optimization (DPO)
- Retrieval-Augmented (RAG) LLM, Tool calling, обзор системы вокруг LLM
- Практика промпт-инжиниринга
Элементы контроля
- Домашнее задание 1Неделя 2. Обучение эмбеддингов с помощью библиотеки fasttext, реализация движка поиска эмбеддинга-ответа по запросу в векторной БД.
- Домашнее задание 2Тонкая настройка (fine-tuning) BERT на собственных данных, обучение GPT
- Домашнее задание 3Тонкая настройка LLM с помощью PEFT.
- Промежуточное тестированиеПрограммой курса предусмотрено промежуточное тестирование в формате multiple choice.
- Устный экзаменПрограммой курса предусмотрен устный экзамен, в рамках которого студентам будет предложено тянуть случайный билет с вопросом по пройденному материалу.
Промежуточная аттестация
- 2025/2026 1st module0.2 * Домашнее задание 1 + 0.2 * Домашнее задание 2 + 0.2 * Домашнее задание 3 + 0.1 * Промежуточное тестирование + 0.3 * Устный экзамен
Список литературы
Рекомендуемая основная литература
- Uday Kamath, John Liu, & James Whitaker. (2019). Deep Learning for NLP and Speech Recognition. Springer.
- Using NLP to enhance behavior and learning : a handbook for teachers, Elston, T., 2009
Рекомендуемая дополнительная литература
- Aman Kedia, & Mayank Rasu. (2020). Hands-On Python Natural Language Processing : Explore Tools and Techniques to Analyze and Process Text with a View to Building Real-world NLP Applications. Packt Publishing.