• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2025/2026

Обработка естественного языка - 1 часть

Статус: Курс обязательный (Искусственный интеллект)
Когда читается: 2-й курс, 1 модуль
Охват аудитории: для своего кампуса
Язык: русский
Контактные часы: 20

Программа дисциплины

Аннотация

Natural Language Processing (NLP) — это область искусственного интеллекта, направленная на решение задач, связанных с обработкой человеческого языка, таких как извлечение информации, машинный перевод, автоматическое суммирование и диалоговые системы. За последние годы мы увидели значительный прогресс благодаря статистическому и глубокому обучению. Демонстрация возможностей современных диалоговых систем по типу ChatGPT от OpenAI позволила нам переосмыслить перспективы NLP в повседневной жизни, что привлекло к области внимание как со стороны исследователей и инженеров, так и институциональных инвесторов, готовых финансировать бурный рост отрасли.
Цель освоения дисциплины

Цель освоения дисциплины

  • познакомить слушателя с ключевыми направлениями современного развития области, сформировать понимание запросов, с которыми сталкиваются инженеры и исследователи в повседневной работе.
  • развить понимание фундаментальных концепций, необходимых для самостоятельного решения задач как прикладного, так и исследовательского характера.
  • познакомить слушателя с инструментами, необходимыми для решения прикладных задач.
Планируемые результаты обучения

Планируемые результаты обучения

  • Пример работы с Hugging Face, использование готовых библиотек для собственных проектов.
  • Знакомство слушателей с Transformers Reinforcement Learning (TRL).
  • Демонстрация реального применения квантизованной на этапе обучения и инференса модели.
  • Получение эмбеддингов из собственного текста, загрузка предобученных эмбеддингов
  • Решение реальной задачи классификации на табличных данных
  • Рассмотрение работы seq2seq модели на собственном корпусе текста
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Карта задач и методов NLP, эмбеддинги слов (word embeddings)
  • Классификация текста
  • Seq2seq
  • Трансформер
  • Transfer learning
  • Обучение Больших языковых моделей (Large Language Models): Обучение с нуля vs Тонкая настройка (finetuning).
  • Reinforcement Learning From Human Feedback (RLHF), Direct Preference Optimization (DPO)
  • Retrieval-Augmented (RAG) LLM, Tool calling, обзор системы вокруг LLM
  • Практика промпт-инжиниринга
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
    Неделя 2. Обучение эмбеддингов с помощью библиотеки fasttext, реализация движка поиска эмбеддинга-ответа по запросу в векторной БД.
  • неблокирующий Домашнее задание 2
    Тонкая настройка (fine-tuning) BERT на собственных данных, обучение GPT
  • неблокирующий Домашнее задание 3
    Тонкая настройка LLM с помощью PEFT.
  • неблокирующий Промежуточное тестирование
    Программой курса предусмотрено промежуточное тестирование в формате multiple choice.
  • неблокирующий Устный экзамен
    Программой курса предусмотрен устный экзамен, в рамках которого студентам будет предложено тянуть случайный билет с вопросом по пройденному материалу.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 1st module
    0.2 * Домашнее задание 1 + 0.2 * Домашнее задание 2 + 0.2 * Домашнее задание 3 + 0.1 * Промежуточное тестирование + 0.3 * Устный экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Uday Kamath, John Liu, & James Whitaker. (2019). Deep Learning for NLP and Speech Recognition. Springer.
  • Using NLP to enhance behavior and learning : a handbook for teachers, Elston, T., 2009

Рекомендуемая дополнительная литература

  • Aman Kedia, & Mayank Rasu. (2020). Hands-On Python Natural Language Processing : Explore Tools and Techniques to Analyze and Process Text with a View to Building Real-world NLP Applications. Packt Publishing.

Авторы

  • Ахмедова Гюнай Интигам кызы