Анализ текстов. Генеративные модели

2025/2026

Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»

Статус: Маго-лего

Кто читает: Базовая кафедра ПАО Сбербанк «Финансовые технологии и анализ данных»

Где читается: Факультет компьютерных наук

Когда читается: 1, 2 модуль

Охват аудитории: для своего кампуса

Преподаватели: Малов Эдуард Эдуардович

Язык: русский

Кредиты: 6

Контактные часы: 56

Дополнительные материалы в LMS Задать вопрос

Аннотация

Дисциплина формирует у студентов комплексные знания и практические навыки в области обработки естественного языка (NLP) на стыке современных методов машинного обучения, статистики и глубокого обучения. Курс охватывает спектр технологий — от классических алгоритмов анализа текста до передовых подходов, включая работу с большими языковыми моделями (LLM) и мульти-агентными системами. Программа нацелена на решение прикладных задач: разработку интеллектуальных сервисов, а также освоение инструментов для сбора, хранения, поиска и анализа текстовой информации для эффективного применения в IT и смежных областях.

Цель освоения дисциплины

Изучение методов классического и нейросетевого NLP, формирование навыков работы с большими языковыми моделями (LLM), решение задач поиска, извлечения, понимания и генерации текстовой информации, создание и использование инструментов и платформ для анализа текстов.

Планируемые результаты обучения

Знание основных понятий, этапов и задач анализа текстов на естественном языке
Умение применять формальные, статистические и нейросетевые методы анализа текста
Понимание архитектуры современных больших языковых моделей
Умение разрабатывать и обучать системы классификации, тематического моделирования, Q&A и информационного поиска
Умение проектировать, реализовывать и оценивать интеллектуальные чат-боты и мультиагентные системы на базе LLM

Содержание учебной дисциплины

Введение в обработку естественного языка и задачи анализа текста
Методы сбора и хранения данных
Частотный анализ текстов
Морфологический, синтаксический и лексический анализ
Векторная модель
Классификация текстов
Языковое моделирование
Трансформеры. Большие языковые модели
Информационный поиск. Вопросно-ответные системы
Промпт-инжиниринг
Агентные и мультиагентные системы

Элементы контроля

Групповой проект №1
Разработка сервиса по детекции юридических ссылок
Групповой проект №2
Разработка телеграмм-бота, агрегирующего новостную ленту по заданным тематикам и ключевым словам
Групповой проект №3
Разработка QA LLM-агента
Экзамен
Устный экзамен в форме ответа на вопросы из билетов. Для подготовки к ответу студенту дается не более 15 минут

Промежуточная аттестация

2025/2026 2nd module
0.2 * Групповой проект №1 + 0.25 * Групповой проект №2 + 0.25 * Групповой проект №3 + 0.3 * Экзамен

Список литературы

Авторы

Минец Максим Вячеславович
Яковлева Илона Александровна

Программа дисциплины