Обработка естественного языка

2025/2026

Статус: Маго-лего

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 3, 4 модуль

Охват аудитории: для своего кампуса

Преподаватели: Чимбулатов Егор Феликсович

Язык: русский

Кредиты: 6

Контактные часы: 80

Дополнительные материалы в LMS Задать вопрос

Аннотация

NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам.В курсе мы постараемся дать вам понять и прочувствовать, что происходит в мире естественной обработки языка. Какие задачи бывают, какие проблемы встречаются в ходе их решения. Мы покажем, что NLP — это не набор пар (задача, решение), а общие идеи, которые применимы для решения множества задач и отражают некоторую общую концепцию.

Цель освоения дисциплины

Изучение базовых задач и методов обработки и анализа текстов
Изучение современных нейросетевых моделей для обработки и анализа текстов
Освоение программных систем и инструментов для обработки и анализа текстов

Планируемые результаты обучения

Знать и применять базовые методы обработки и анализа текстов
Уметь решать задачи, связанные с моделированием языка
Преобрести и проверить знания и умения применять базовые методы обработки и анализа текстов

Содержание учебной дисциплины

Введение. Статистический анализ текстов
Векторные модели представления слов
Классификация текстов
Машинный перевод
Рекуррентные нейронные сети
Способы токенизации последовательностей
Обзор языковых моделей
Генеративные языковые модели
Трансформерные модели
Способы уменьшения размеров моделей
Распознавание сущностей, решение задач классификации последовательностей
Диффузионные модели для генерации текстов
Мультиязыковые модели
Задача Seq2seq. Трансформер. Методы семплирования токенов
BERT и GPT
Transfer learning. Parameter-Efficient Fine-Tuning
Архитектурные особенности больших языковых моделей (LLM)
Уменьшение размеров модели без потери качества
Retrieval-Augmented Generation (RAG)
Active learning
Text style transfer

Элементы контроля

Контрольная работа
Экзамен
Экзамен проводится в устной форме, возможно проведение в аудитории или на платформе Zoom. который включает в себя два вопроса из программы курса. Во время подготовки ответа нельзя пользоваться материалами. После ответа студенту могут быть заданы дополнительные вопросы по программе курса, а также предложены задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений.
Домашние задания

Промежуточная аттестация

2025/2026 4th module
0.4 * Домашние задания + 0.3 * Контрольная работа + 0.3 * Экзамен

Список литературы

Авторы

Емашева Валерия Анатольевна

Программа дисциплины