Научно-исследовательский семинар «Интерпретация лингвистических явлений в больших языковых моделях»

Бакалавриат 2025/2026

Статус: Курс по выбору (Фундаментальная и компьютерная лингвистика)

Кто читает: Школа лингвистики

Когда читается: 4-й курс, 1, 2 модуль

Охват аудитории: для своего кампуса

Преподаватели: Ляшевская Ольга Николаевна

Язык: русский

Дополнительные материалы в LMS Задать вопрос

Аннотация

В курсе предполагается рассмотреть ряд явлений, которые наблюдаются в корпусах текстов, находят объяснение в современных теориях языка и воспроизводятся в больших языковых моделях (LLM). Основное внимание будет уделено сопоставлению того, как в языковой реальности и LLM дифференцируются парадигматика и синтагматика, синонимия и антонимия, родо-видовые отношения, семантические роли и т. п. В рамках курса будет обсуждаться сравнение характеристик естественно-языковых текстов и текстов, сгенерированных LLM, прежде всего, в отношении семантической и формальной компрессии: выделение и генерация ключевых выражений, перифразирование, суммаризация и упрощение, лексическая аббревиация и т.п.). Отдельный интерес представляет воспроизведение параметров связности (когезии и когерентности) естественно-языкового текста в LLM.

Цель освоения дисциплины

Познакомить слушателей с существующими подходами к решению задач семантического анализа, оценки когерентности текста, профилирования синтетических персон и т. д.
Научить слушателей применять компьютерные технологии моделирования лексики, коллокаций, конструкций и текста

Планируемые результаты обучения

студент владеет основными понятиями и методами, используемыми в представлении лексико-семантических отношений
студент владеет основными понятиями дистрибутивной семантики и векторного представления языковых единиц
студент владеет навыками работы с Word2vec/GloVe и архитектурами-трансформерами
студент владеет основными понятиями и методами работы с коллокациями, генерации, маскирования, промпт-инжиниринга
студент владеет основными понятиями и методами разработки таксономий
студент владееет методами классификации, ранжирования, генерации
студент владеет понятиями представления фреймовой информации
студент владеет методами решениями задач определения фреймов, разметки семантических ролей, генерации описания новых фреймов
студент владеет методами генерации ключевых выражений, перифразирования, суммаризации и упрощения высказываний и текстов
студент владеет понятийным аппаратом и методами оценки когезии и когеренции текста
студент владеет методами моделирования профилирования пользователей LLM

Содержание учебной дисциплины

Представление лексико-семантических отношений в языковых моделях
Предсказание коллокаций с заданными свойствами с помощью языковых моделей
Дифференциация лексико-семантических отношений в языковых моделях
Предсказание конструкций с заданными свойствами
Выделение семантических ролей и генерация фреймов
Семантическая компрессия и языковые модели
Когезия и когерентность как факторы дифференциации естественных и синтетических текстов
Профилирование синтетических персон

Элементы контроля

Экзамен
Участие в дискуссии
Студент задает вопросы к лекциям и практическим занятиям, в ходе занятия инициирует или участвует в дискуссии
Выполнение практических заданий 1
Выполнение практических заданий 2
Самостоятельная работа по подготовке проекта

Промежуточная аттестация

2025/2026 2nd module
0.3 * Выполнение практических заданий 1 + 0.3 * Выполнение практических заданий 2 + 0 * Самостоятельная работа по подготовке проекта + 0.05 * Участие в дискуссии + 0.05 * Участие в дискуссии + 0.3 * Экзамен

Список литературы

Авторы

Ляшевская Ольга Николаевна

Программа дисциплины