Применение глубоких нейросетевых моделей, учитывающих структурную лингвистическую информацию, в прикладных задачах анализа текстовых данныхApplication of Deep Learning Models Using Structural Linguistic Information in Applied NLP Tasks
Соискатель:
Руководитель:
Члены комитета:
Игнатов Дмитрий Игоревич (НИУ ВШЭ, к.т.н., председатель комитета), Алимова Ильсеяр Салимовна (Сколковский институт науки и технологий, к.т.н., член комитета), Никишина Ирина Александровна (Университет Гамбурга, к.т.н., член комитета), Смирнов Иван Валентинович (Федеральный исследовательский центр «Информатика и управление» РАН, д.т.н., член комитета), Шелманов Артем Олегович (Университет искусственного интеллекта имени Мохамеда бен Заида (Объединенные Арабские Эмираты), к.т.н., член комитета)
Диссертация принята к предварительному рассмотрению:
3/27/2025
Диссертация принята к защите:
4/24/2025
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
6/27/2025
Диссертация исследует методы интеграции лингвистических структур, в частности, дискурсивных, в современные модели обработки естественного языка (SOTA), такие как рекурсивные нейронные сети и Трансформеры. Представлены новые архитектуры RSTRecNN и DSNDM, эффективно кодирующие дискурсивные деревья. Эти модели демонстрируют высокие результаты в задачах анализа аргументации, тональности текстов, проверки фактов и ранжирования в вопросно-ответных системах. Для задачи генерации текста (NLG) предложен подход к оценке качества дискурсивной структуры, выявивший недостатки существующих моделей. Представлены методы с использованием планирования, улучшающие дискурсивную структуру при генерации как в повествовательных текстах, так и в диалогах. Также предложена модификация архитектуры BART, учитывающая больше типов лингвистической информации, что повышает качество генерации и интерпретируемость результатов. В работе также представлена демонстрационная система, решающая задачу обсуждения научных статей, не имеющая открытых аналогов. Наконец, предложена модификация Трансформера, интегрирующая дискурсивные признаки, которая превосходит существующие подходы в детекции манипулятивного контента. В ходе исследования были собраны и опубликованы в открытом доступе несколько новых наборов данных. В целом, работа подчеркивает важность учета лингвистической информации для повышения качества современных моделей обработки естественного языка и открывает перспективные направления для их дальнейшего развития в различных NLP-задачах.
Диссертация [*.pdf, 6.12 Мб] (дата размещения 4/26/2025)
Резюме [*.pdf, 1.07 Мб] (дата размещения 4/26/2025)
Summary [*.pdf, 1.09 Мб] (дата размещения 4/26/2025)
Публикации, в которых излагаются основные результаты диссертации
Chernyavskiy A., Ilvovsky D. Recursive Neural Text Classification using Discourse Tree Structure for Argumentation Mining and Sentiment Analysis Tasks (смотреть на сайте журнала)
Chernyavskiy A., Ilvovsky D. DSNDM: Deep Siamese Neural Discourse Model with Attention for Text Pairs Categorization and Ranking Tasks (смотреть на сайте журнала)
Chernyavskiy A., Ilvovsky D., Galitsky B. Correcting Texts Generated by Transformers using Discourse Features and Web Mining (смотреть на сайте журнала)
Chernyavskiy A. Improving Text Generation via Neural Discourse Planning (смотреть на сайте журнала)
Chernyavskiy A., Ilvovsky D. Transformer-based Multi-Party Conversation Generation using Dialogue Discourse Acts Planning (смотреть на сайте журнала)
Chernyavskiy A., Bregeda M., Nikiforova M. PaperPersiChat: Scientific Paper Discussion Chatbot using Transformers and Discourse Flow Management (смотреть на сайте журнала)
Chernyavskiy A., Ostyakova L., Ilvovsky D. GroundHog: Dialogue Generation using Multi-Grained Linguistic Input (смотреть на сайте журнала)
Chernyavskiy A., Ilvovsky D., Nakov P. Unleashing the Power of Discourse-Enhanced Transformers for Propaganda Detection (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Ильвовский Дмитрий Алексеевич (дата размещения 3/28/2025)
Отзыв члена Комитета
- Никишина Ирина Александровна (дата размещения 6/17/2025)
- Смирнов Иван Валентинович (дата размещения 6/17/2025)
- Шелманов Артем Олегович (дата размещения 6/17/2025)
- Алимова Ильсеяр Салимовна (дата размещения 6/17/2025)
- Игнатов Дмитрий Игоревич (дата размещения 6/17/2025)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол № 2 от 27.06.2025).
См. на ту же тему
Моделирование исправления ошибок в английских текстах с использованием синтетических и концентрированных наборов данныхКандидатская диссертация
Соискатель: Старченко Владимир Миронович
Руководитель: Ляшевская Ольга Николаевна
Влияние цифровой трансформации и перехода к принципам устойчивого развития на результаты деятельности в корпорациях в КитаеКандидатская диссертация
Соискатель: Ву Яньфэй
Руководитель: Ивашковская Ирина Васильевна
Методы глубинного обучения для предсказания Z-ДНК на основе омиксных данныхКандидатская диссертация
Соискатель: Бекназаров Назар Сохибжонович
Руководитель: Попцова Мария Сергеевна