• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2025/2026

Обработка естественного языка

Статус: Маго-лего
Когда читается: 3, 4 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 6
Контактные часы: 80

Программа дисциплины

Аннотация

NLP (Natural Language Processing) — это область машинного обучения, которая пытается научить компьютер понимать и обрабатывать текстовые данные. NLP лежит в основе множества технологий, таких как системы перевода и генерации текстов, голосовые помощники, суммаризаторы текстов, спам детекторы и так далее. В настоящее время такие технологии не только облегчают жизнь людям, решая несложные задачи быстрее них. Часто модели машинного обучения позволяют достигать более высокого качества и оказываются “умнее” многих людей. Примером такой модели может стать нашумевшая ChatGPT, способная корректно отвечать на вопросы по самым различным темам.В курсе мы постараемся дать вам понять и прочувствовать, что происходит в мире естественной обработки языка. Какие задачи бывают, какие проблемы встречаются в ходе их решения. Мы покажем, что NLP — это не набор пар (задача, решение), а общие идеи, которые применимы для решения множества задач и отражают некоторую общую концепцию.
Цель освоения дисциплины

Цель освоения дисциплины

  • Изучение базовых задач и методов обработки и анализа текстов
  • Изучение современных нейросетевых моделей для обработки и анализа текстов
  • Освоение программных систем и инструментов для обработки и анализа текстов
Планируемые результаты обучения

Планируемые результаты обучения

  • Знать и применять базовые методы обработки и анализа текстов
  • Уметь решать задачи, связанные с моделированием языка
  • Преобрести и проверить знания и умения применять базовые методы обработки и анализа текстов
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение. Статистический анализ текстов
  • Векторные модели представления слов
  • Классификация текстов
  • Машинный перевод
  • Рекуррентные нейронные сети
  • Способы токенизации последовательностей
  • Обзор языковых моделей
  • Генеративные языковые модели
  • Трансформерные модели
  • Способы уменьшения размеров моделей
  • Распознавание сущностей, решение задач классификации последовательностей
  • Диффузионные модели для генерации текстов
  • Мультиязыковые модели
  • Задача Seq2seq. Трансформер. Методы семплирования токенов
  • BERT и GPT
  • Transfer learning. Parameter-Efficient Fine-Tuning
  • Архитектурные особенности больших языковых моделей (LLM)
  • Уменьшение размеров модели без потери качества
  • Retrieval-Augmented Generation (RAG)
  • Active learning
  • Text style transfer
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа
  • неблокирующий Экзамен
    Экзамен проводится в устной форме, возможно проведение в аудитории или на платформе Zoom. который включает в себя два вопроса из программы курса. Во время подготовки ответа нельзя пользоваться материалами. После ответа студенту могут быть заданы дополнительные вопросы по программе курса, а также предложены задачи на понимание теоретического материала. Такие задачи не требуют проведения обширных вычислений.
  • неблокирующий Домашние задания
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 4th module
    0.4 * Домашние задания + 0.3 * Контрольная работа + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Introduction to natural language processing, Eisenstein, J., 2019
  • Manning C. D., Schutze H. Foundations of statistical natural processing. – 1999. – 719 pp.

Рекомендуемая дополнительная литература

  • Shay Cohen. (2019). Bayesian Analysis in Natural Language Processing : Second Edition. San Rafael: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=2102157

Авторы

  • Емашева Валерия Анатольевна