Выявление структурных компонентов языковых моделей, ответственных за лингвистические и фактологические знания, и управление имиIdentifying and controlling the structural components oflanguage models responsible for linguistic and factualknowledge
Соискатель:
Плетенев Сергей Александрович
Руководитель:
Члены комитета:
Клышинский Эдуард Станиславович (Национальный исследовательский университет «Высшая школа экономики» , д-р филол. наук, председатель комитета), Алимова Ильсеяр Салимовна (Сколковский институт науки и технологий (Сколтех), канд. тех. наук, член комитета), Бадрызлова Юлия Геннадьевна (Национальный исследовательский университет «Высшая школа экономики» , канд. филол. наук, член комитета), Карпов Дмитрий Александрович (ООО "Северсталь Диджитал", канд. тех. наук, член комитета), Пиперски Александр Чедович (Факультет либеральных искусств и наук (Подгорица, Черногория), канд. филол. наук, член комитета)
Диссертация принята к предварительному рассмотрению:
8/29/2025
Диссертация принята к защите:
9/12/2025
Дисс. совет:
Совет по филологии
Дата защиты:
10/29/2025
Современные нейронные языковые модели демонстрируют впечатляющую эффективность в различных задачах, однако их внутреннее устройство остаётся малоизученным. В этой диссертации мы предлагаем новый подход к обнаружению, сохранению и управлению модульной организацией знаний внутри этих моделей. Мы показываем, что сжатие не только уменьшает конечный размер моделей, но и служит научным инструментом, который позволяет понять, как языковые модели структурируют различные типы знаний в отдельные модули.Мы провели систематический анализ на различных архитектурах (BERT, GPT, LLaMA) и задачах, чтобы выявить, как синтаксические знания располагаются в устойчивых к сжатию линейных подпространствах, семантическое понимание модели закодировано в комплексной структуре кодирования, а фактические знания зависят от конкретных конфигураций параметров. Основываясь на этих знаниях, мы предлагаем методы сжатия, учитывающие структуру и сохраняющие выделенные блоки знаний. В результате мы достигаем превосходного баланса между сжатием и производительностью по сравнению с традиционными методами, которые не учитывают структуру. В завершение, мы подтверждаем, что структурные модули могут быть напрямую изменены для достижения точного контроля над поведением. В задачах по детоксикации текста мы применяем метод исправления активаций, чтобы продемонстрировать, как можно изменить конкретные модули, отвечающие за фильтрацию контента, сохраняя при этом все остальные функции. В этой работе мы представляем целостную структуру, начиная от нахождения и идентификации и заканчивая практическим применением. Сжатие позволяет выявить модульную организацию нейронных сетей, что открывает новые горизонты для создания более эффективных, интерпретируемых и контролируемых языковых моделей. Наши исследования показывают, что понимание внутренней структуры нейронных сетей, а не просто их использование как чёрных ящиков, является ключом к их оптимизации и широкому распространению.
Диссертация [*.pdf, 1.07 Мб] (дата размещения 8/29/2025)
Резюме [*.pdf, 179.09 Кб] (дата размещения 8/29/2025)
Summary [*.pdf, 189.75 Кб] (дата размещения 8/29/2025)
Публикации, в которых излагаются основные результаты диссертации
Memory Efficient LM Compression Using Fisher Information from Low-Rank Representations (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Толдова С.Ю. (дата размещения 8/29/2025)
Отзыв члена Комитета
- Пиперски А.Ч. (дата размещения 10/28/2025)
- Алимова И.С. (дата размещения 10/28/2025)
- Клышинский Э.С. (дата размещения 10/28/2025)
- Карпов Д.А. (дата размещения 10/28/2025)
- Бадрызлова Ю.Г. (дата размещения 10/28/2025)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата филологических наук (протокол № 2 от 29.10.2025). Решением диссертационного совета (протокол №11 от 31.10.2025) присуждена ученая степень кандидата филологических наук.
См. на ту же тему
Ускорение, сжатие и усовершенствование нейросетевых алгоритмов классификации и распознавания объектов на изображении и в видеопотоке.Кандидатская диссертация
Соискатель:
Руководитель: Оселедец Иван Валерьевич
Методы глубинного обучения для предсказания Z-ДНК на основе омиксных данныхКандидатская диссертация
Соискатель: Бекназаров Назар Сохибжонович
Руководитель: Попцова Мария Сергеевна
Методы и наборы данных для оценки моделей информационного поиска и обработки естественного языкаДокторская диссертация
Соискатель: Браславский Павел Исаакович