Бакалавриат
2025/2026





Научно-исследовательский семинар «Интерпретация лингвистических явлений в больших языковых моделях»
Статус:
Курс по выбору (Фундаментальная и компьютерная лингвистика)
Кто читает:
Школа лингвистики
Когда читается:
4-й курс, 1, 2 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Ляшевская Ольга Николаевна
Язык:
русский
Программа дисциплины
Аннотация
В курсе предполагается рассмотреть ряд явлений, которые наблюдаются в корпусах текстов, находят объяснение в современных теориях языка и воспроизводятся в больших языковых моделях (LLM). Основное внимание будет уделено сопоставлению того, как в языковой реальности и LLM дифференцируются парадигматика и синтагматика, синонимия и антонимия, родо-видовые отношения, семантические роли и т. п. В рамках курса будет обсуждаться сравнение характеристик естественно-языковых текстов и текстов, сгенерированных LLM, прежде всего, в отношении семантической и формальной компрессии: выделение и генерация ключевых выражений, перифразирование, суммаризация и упрощение, лексическая аббревиация и т.п.). Отдельный интерес представляет воспроизведение параметров связности (когезии и когерентности) естественно-языкового текста в LLM.
Цель освоения дисциплины
- Познакомить слушателей с существующими подходами к решению задач семантического анализа, оценки когерентности текста, профилирования синтетических персон и т. д.
- Научить слушателей применять компьютерные технологии моделирования лексики, коллокаций, конструкций и текста
Планируемые результаты обучения
- студент владеет основными понятиями и методами, используемыми в представлении лексико-семантических отношений
- студент владеет основными понятиями дистрибутивной семантики и векторного представления языковых единиц
- студент владеет навыками работы с Word2vec/GloVe и архитектурами-трансформерами
- студент владеет основными понятиями и методами работы с коллокациями, генерации, маскирования, промпт-инжиниринга
- студент владеет основными понятиями и методами разработки таксономий
- студент владееет методами классификации, ранжирования, генерации
- студент владеет понятиями представления фреймовой информации
- студент владеет методами решениями задач определения фреймов, разметки семантических ролей, генерации описания новых фреймов
- студент владеет методами генерации ключевых выражений, перифразирования, суммаризации и упрощения высказываний и текстов
- студент владеет понятийным аппаратом и методами оценки когезии и когеренции текста
- студент владеет методами моделирования профилирования пользователей LLM
Содержание учебной дисциплины
- Представление лексико-семантических отношений в языковых моделях
- Предсказание коллокаций с заданными свойствами с помощью языковых моделей
- Дифференциация лексико-семантических отношений в языковых моделях
- Предсказание конструкций с заданными свойствами
- Выделение семантических ролей и генерация фреймов
- Семантическая компрессия и языковые модели
- Когезия и когерентность как факторы дифференциации естественных и синтетических текстов
- Профилирование синтетических персон
Элементы контроля
- Экзамен
- Участие в дискуссииСтудент задает вопросы к лекциям и практическим занятиям, в ходе занятия инициирует или участвует в дискуссии
- Выполнение практических заданий 1
- Выполнение практических заданий 2
- Самостоятельная работа по подготовке проекта
Промежуточная аттестация
- 2025/2026 2nd module0.3 * Выполнение практических заданий 1 + 0.3 * Выполнение практических заданий 2 + 0 * Самостоятельная работа по подготовке проекта + 0.05 * Участие в дискуссии + 0.05 * Участие в дискуссии + 0.3 * Экзамен
Список литературы
Рекомендуемая основная литература
- 36488 - Alpina - GPT-4. Руководство по использованию API Open AI - А.Эль Амри - ДМК Пресс - 9785937002990 - 2024 - https://hse.alpinadigital.ru/document/36488
- Corpus methods for semantics : quantitative studies in polysemy and synonymy, , 2014
- Goldberg, Y. (2017). Neural Network Methods in Natural Language Processing. [San Rafael, California]: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1506512
- Python и анализ данных : первичная обработка данных с применением pandas, NumPy и Jupiter, Маккинни, У., 2023
- The Oxford handbook of construction grammar, , 2013
- Wohlgenannt, G., Barinova, A., Ilvovsky, D., & Chernyak, E. (2019). Creation and Evaluation of Datasets for Distributional Semantics Tasks in the Digital Humanities Domain. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsarx&AN=edsarx.1903.02671
- Yasunaga, M., Kasai, J., Zhang, R., Fabbri, A. R., Li, I., Friedman, D., & Radev, D. R. (2019). ScisummNet: A Large Annotated Corpus and Content-Impact Models for Scientific Paper Summarization with Citation Networks. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsarx&AN=edsarx.1909.01716
- Коротеев, М. В., Основы машинного обучения на Python : учебник / М. В. Коротеев. — Москва : КноРус, 2024. — 431 с. — ISBN 978-5-406-12673-8. — URL: https://book.ru/book/952751 (дата обращения: 03.04.2025). — Текст : электронный.
- Коротеев, М.В.. Основы машинного обучения на Python : Учебник / М.В. Коротеев — Москва : КноРус, 2025. — 431 с. — ISBN 978-5-406-14728-3. — URL: https://book.ru/book/957785 (дата обращения: 03.04.2025). — Текст : электронный.
- Публикация пакетов Python : тестирование, распространение и автоматизация проектов, Хиллард, Д., 2024
Рекомендуемая дополнительная литература
- Fillmore, C. J. A., O’Connor, M. C. A., & Kay, P. A. (1988). Regularity and idiomicity in grammatical constructions: The case of “let alone.” Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.ED223505