• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2025/2026

Анализ текстов. Генеративные модели

Статус: Маго-лего
Когда читается: 1, 2 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 6
Контактные часы: 56

Программа дисциплины

Аннотация

Дисциплина формирует у студентов комплексные знания и практические навыки в области обработки естественного языка (NLP) на стыке современных методов машинного обучения, статистики и глубокого обучения. Курс охватывает спектр технологий — от классических алгоритмов анализа текста до передовых подходов, включая работу с большими языковыми моделями (LLM) и мульти-агентными системами. Программа нацелена на решение прикладных задач: разработку интеллектуальных сервисов, а также освоение инструментов для сбора, хранения, поиска и анализа текстовой информации для эффективного применения в IT и смежных областях.
Цель освоения дисциплины

Цель освоения дисциплины

  • Изучение методов классического и нейросетевого NLP, формирование навыков работы с большими языковыми моделями (LLM), решение задач поиска, извлечения, понимания и генерации текстовой информации, создание и использование инструментов и платформ для анализа текстов.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знание основных понятий, этапов и задач анализа текстов на естественном языке
  • Умение применять формальные, статистические и нейросетевые методы анализа текста
  • Понимание архитектуры современных больших языковых моделей
  • Умение разрабатывать и обучать системы классификации, тематического моделирования, Q&A и информационного поиска
  • Умение проектировать, реализовывать и оценивать интеллектуальные чат-боты и мультиагентные системы на базе LLM
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в обработку естественного языка и задачи анализа текста
  • Методы сбора и хранения данных
  • Частотный анализ текстов
  • Морфологический, синтаксический и лексический анализ
  • Векторная модель
  • Классификация текстов
  • Языковое моделирование
  • Трансформеры. Большие языковые модели
  • Информационный поиск. Вопросно-ответные системы
  • Промпт-инжиниринг
  • Агентные и мультиагентные системы
Элементы контроля

Элементы контроля

  • неблокирующий Групповой проект №1
    Разработка сервиса по детекции юридических ссылок
  • неблокирующий Групповой проект №2
    Разработка телеграмм-бота, агрегирующего новостную ленту по заданным тематикам и ключевым словам
  • неблокирующий Групповой проект №3
    Разработка QA LLM-агента
  • неблокирующий Экзамен
    Устный экзамен в форме ответа на вопросы из билетов. Для подготовки к ответу студенту дается не более 15 минут
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    0.2 * Групповой проект №1 + 0.25 * Групповой проект №2 + 0.25 * Групповой проект №3 + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Speech and language processing, Jurafsky, D., 2014

Рекомендуемая дополнительная литература

  • Yang Liu, & Meng Zhang. (2018). Neural Network Methods for Natural Language Processing. Computational Linguistics, (1), 193. https://doi.org/10.1162/COLI_r_00312

Авторы

  • Минец Максим Вячеславович
  • Яковлева Илона Александровна