• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2025/2026

Научно-исследовательский семинар «Интерпретация лингвистических явлений в больших языковых моделях»

Когда читается: 4-й курс, 1, 2 модуль
Охват аудитории: для своего кампуса
Язык: русский

Программа дисциплины

Аннотация

В курсе предполагается рассмотреть ряд явлений, которые наблюдаются в корпусах текстов, находят объяснение в современных теориях языка и воспроизводятся в больших языковых моделях (LLM). Основное внимание будет уделено сопоставлению того, как в языковой реальности и LLM дифференцируются парадигматика и синтагматика, синонимия и антонимия, родо-видовые отношения, семантические роли и т. п. В рамках курса будет обсуждаться сравнение характеристик естественно-языковых текстов и текстов, сгенерированных LLM, прежде всего, в отношении семантической и формальной компрессии: выделение и генерация ключевых выражений, перифразирование, суммаризация и упрощение, лексическая аббревиация и т.п.). Отдельный интерес представляет воспроизведение параметров связности (когезии и когерентности) естественно-языкового текста в LLM.
Цель освоения дисциплины

Цель освоения дисциплины

  • Познакомить слушателей с существующими подходами к решению задач семантического анализа, оценки когерентности текста, профилирования синтетических персон и т. д.
  • Научить слушателей применять компьютерные технологии моделирования лексики, коллокаций, конструкций и текста
Планируемые результаты обучения

Планируемые результаты обучения

  • студент владеет основными понятиями и методами, используемыми в представлении лексико-семантических отношений
  • студент владеет основными понятиями дистрибутивной семантики и векторного представления языковых единиц
  • студент владеет навыками работы с Word2vec/GloVe и архитектурами-трансформерами
  • студент владеет основными понятиями и методами работы с коллокациями, генерации, маскирования, промпт-инжиниринга
  • студент владеет основными понятиями и методами разработки таксономий
  • студент владееет методами классификации, ранжирования, генерации
  • студент владеет понятиями представления фреймовой информации
  • студент владеет методами решениями задач определения фреймов, разметки семантических ролей, генерации описания новых фреймов
  • студент владеет методами генерации ключевых выражений, перифразирования, суммаризации и упрощения высказываний и текстов
  • студент владеет понятийным аппаратом и методами оценки когезии и когеренции текста
  • студент владеет методами моделирования профилирования пользователей LLM
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Представление лексико-семантических отношений в языковых моделях
  • Предсказание коллокаций с заданными свойствами с помощью языковых моделей
  • Дифференциация лексико-семантических отношений в языковых моделях
  • Предсказание конструкций с заданными свойствами
  • Выделение семантических ролей и генерация фреймов
  • Семантическая компрессия и языковые модели
  • Когезия и когерентность как факторы дифференциации естественных и синтетических текстов
  • Профилирование синтетических персон
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
  • неблокирующий Участие в дискуссии
    Студент задает вопросы к лекциям и практическим занятиям, в ходе занятия инициирует или участвует в дискуссии
  • неблокирующий Выполнение практических заданий 1
  • неблокирующий Выполнение практических заданий 2
  • неблокирующий Самостоятельная работа по подготовке проекта
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    0.3 * Выполнение практических заданий 1 + 0.3 * Выполнение практических заданий 2 + 0 * Самостоятельная работа по подготовке проекта + 0.05 * Участие в дискуссии + 0.05 * Участие в дискуссии + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • 36488 - Alpina - GPT-4. Руководство по использованию API Open AI - А.Эль Амри - ДМК Пресс - 9785937002990 - 2024 - https://hse.alpinadigital.ru/document/36488
  • Corpus methods for semantics : quantitative studies in polysemy and synonymy, , 2014
  • Goldberg, Y. (2017). Neural Network Methods in Natural Language Processing. [San Rafael, California]: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1506512
  • Python и анализ данных : первичная обработка данных с применением pandas, NumPy и Jupiter, Маккинни, У., 2023
  • The Oxford handbook of construction grammar, , 2013
  • Wohlgenannt, G., Barinova, A., Ilvovsky, D., & Chernyak, E. (2019). Creation and Evaluation of Datasets for Distributional Semantics Tasks in the Digital Humanities Domain. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsarx&AN=edsarx.1903.02671
  • Yasunaga, M., Kasai, J., Zhang, R., Fabbri, A. R., Li, I., Friedman, D., & Radev, D. R. (2019). ScisummNet: A Large Annotated Corpus and Content-Impact Models for Scientific Paper Summarization with Citation Networks. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsarx&AN=edsarx.1909.01716
  • Коротеев, М. В., Основы машинного обучения на Python : учебник / М. В. Коротеев. — Москва : КноРус, 2024. — 431 с. — ISBN 978-5-406-12673-8. — URL: https://book.ru/book/952751 (дата обращения: 03.04.2025). — Текст : электронный.
  • Коротеев, М.В.. Основы машинного обучения на Python : Учебник / М.В. Коротеев — Москва : КноРус, 2025. — 431 с. — ISBN 978-5-406-14728-3. — URL: https://book.ru/book/957785 (дата обращения: 03.04.2025). — Текст : электронный.
  • Публикация пакетов Python : тестирование, распространение и автоматизация проектов, Хиллард, Д., 2024

Рекомендуемая дополнительная литература

  • Fillmore, C. J. A., O’Connor, M. C. A., & Kay, P. A. (1988). Regularity and idiomicity in grammatical constructions: The case of “let alone.” Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.ED223505

Авторы

  • Ляшевская Ольга Николаевна