Моделирование исправления ошибок в английских текстах с использованием синтетических и концентрированных наборов данныхModeling Error Correction in English Texts Using Synthetic and Concentrated Datasets
Соискатель:
Старченко Владимир Миронович
Руководитель:
Члены комитета:
Выренкова Анастасия Сергеевна (Национальный исследовательский университет «Высшая школа экономики» , канд. филол. наук, председатель комитета), Котельников Евгений Вячеславович (Европейский университет в Санкт-Петербурге, д-р тех. наук, доцент, член комитета), Объедков Сергей Александрович (Дрезденский технический университет (Германия), канд. тех. наук, член комитета), Смирнова Елизавета Александровна (Национальный исследовательский университет «Высшая школа экономики» , канд. филол. наук, доцент, член комитета), Солнышкина Марина Ивановна (Казанский (Приволжский) федеральный университет, д-р филол. наук, профессор, член комитета)
Диссертация принята к предварительному рассмотрению:
5/28/2025
Диссертация принята к защите:
6/25/2025
Дисс. совет:
Совет по филологии
Дата защиты:
9/15/2025
Задача GEC (Grammatical Error Correction; автоматическое исправление ошибок) в настоящее время сталкивается с «кризисом разрешающей способности». Результаты новейших моделей GEC оказываются настолько высоки в соответствии с общепринятыми метриками, что превосходят точность разметки людей-экспертов друг относительно друга. Несмотря на это, модели всё ещё не справляются на достаточном уровне с исправлением отдельных типов ошибок, которые свободно исправляет образованный носитель языка. Для решения этой проблемы мы предлагаем методологию концентрированных датасетов, которые должны использоваться при оценке моделей и для их обучения. Мы сосредотачиваемся на двух группах ошибок: ошибок на уровне символов (~ошибки правописания) и ошибки чувствительные к контексту. На примере ошибок на уровне слова демонстрируется применение методологии на всех этапах. Мы показываем, что текущее качество моделей на этом типе ошибок низкое, и, опираясь на синтетический датасет, обосновываем плодотворность использования концентрированных датасетов для оценки моделей. С использованием концентрированных обучающих данных разрабатывается нетребовательная к ресурсам модель для проверки правописания, превышающая по качеству работы современные SOTA модели. Предлагается объяснение, в соответствии с которым низкая производительность современных больших языковых моделей при исправлении ошибок на уровне слова состоит в особенностях используемых ими токенизаторов. На материале ошибок, чувствительных к контексту, мы демонстрируем, что методология может быть расширена на типы ошибок, для которых создание синтетических данных проблематично, а также делаем ряд наблюдений относительно того, как тип ошибки, чувствительной к контексту, влияет на качество ее исправления.
Диссертация [*.pdf, 933.38 Кб] (дата размещения 7/3/2025)
Резюме [*.pdf, 263.89 Кб] (дата размещения 7/3/2025)
Summary [*.pdf, 208.58 Кб] (дата размещения 7/3/2025)
Публикации, в которых излагаются основные результаты диссертации
Отзывы
Отзыв научного руководителя
- Ляшевская О.Н. (дата размещения 5/28/2025)
Отзыв члена Комитета
- Котельников Е.В. (дата размещения 9/12/2025)
- Смирнова Е.А. (дата размещения 9/12/2025)
- Выренкова А.С. (дата размещения 9/12/2025)
- Объедков С.А. (дата размещения 9/12/2025)
- Солнышкина М.И. (дата размещения 9/12/2025)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата филологических наук (протокол № 2 от 15.09.2025). Решением диссертационного совета (протокол №10 от 24.09.2025) присуждена ученая степень кандидата филологических наук.
См. на ту же тему
Методы глубинного обучения для предсказания Z-ДНК на основе омиксных данныхКандидатская диссертация
Соискатель: Бекназаров Назар Сохибжонович
Руководитель: Попцова Мария Сергеевна
Автоматизация создания неправильных вариантов (дистракторов) для банков заданий языкового тестированияКандидатская диссертация
Соискатель: Логин Никита Вячеславович
Руководитель: Ляшевская Ольга Николаевна
Регуляция и прогностическая значимость сплайс-вариантов CD44 при колоректальном ракеКандидатская диссертация
Соискатель: Новосад Виктор Олегович
Руководитель: Шкурников Максим Юрьевич
Дата защиты: 11/11/2025