2025/2026





Анализ текстов. Генеративные модели
Статус:
Маго-лего
Где читается:
Факультет компьютерных наук
Когда читается:
1, 2 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Малов Эдуард Эдуардович
Язык:
русский
Кредиты:
6
Контактные часы:
56
Программа дисциплины
Аннотация
Дисциплина формирует у студентов комплексные знания и практические навыки в области обработки естественного языка (NLP) на стыке современных методов машинного обучения, статистики и глубокого обучения. Курс охватывает спектр технологий — от классических алгоритмов анализа текста до передовых подходов, включая работу с большими языковыми моделями (LLM) и мульти-агентными системами. Программа нацелена на решение прикладных задач: разработку интеллектуальных сервисов, а также освоение инструментов для сбора, хранения, поиска и анализа текстовой информации для эффективного применения в IT и смежных областях.
Цель освоения дисциплины
- Изучение методов классического и нейросетевого NLP, формирование навыков работы с большими языковыми моделями (LLM), решение задач поиска, извлечения, понимания и генерации текстовой информации, создание и использование инструментов и платформ для анализа текстов.
Планируемые результаты обучения
- Знание основных понятий, этапов и задач анализа текстов на естественном языке
- Умение применять формальные, статистические и нейросетевые методы анализа текста
- Понимание архитектуры современных больших языковых моделей
- Умение разрабатывать и обучать системы классификации, тематического моделирования, Q&A и информационного поиска
- Умение проектировать, реализовывать и оценивать интеллектуальные чат-боты и мультиагентные системы на базе LLM
Содержание учебной дисциплины
- Введение в обработку естественного языка и задачи анализа текста
- Методы сбора и хранения данных
- Частотный анализ текстов
- Морфологический, синтаксический и лексический анализ
- Векторная модель
- Классификация текстов
- Языковое моделирование
- Трансформеры. Большие языковые модели
- Информационный поиск. Вопросно-ответные системы
- Промпт-инжиниринг
- Агентные и мультиагентные системы
Элементы контроля
- Групповой проект №1Разработка сервиса по детекции юридических ссылок
- Групповой проект №2Разработка телеграмм-бота, агрегирующего новостную ленту по заданным тематикам и ключевым словам
- Групповой проект №3Разработка QA LLM-агента
- ЭкзаменУстный экзамен в форме ответа на вопросы из билетов. Для подготовки к ответу студенту дается не более 15 минут
Промежуточная аттестация
- 2025/2026 2nd module0.2 * Групповой проект №1 + 0.25 * Групповой проект №2 + 0.25 * Групповой проект №3 + 0.3 * Экзамен
Список литературы
Рекомендуемая основная литература
- Speech and language processing, Jurafsky, D., 2014
Рекомендуемая дополнительная литература
- Yang Liu, & Meng Zhang. (2018). Neural Network Methods for Natural Language Processing. Computational Linguistics, (1), 193. https://doi.org/10.1162/COLI_r_00312