• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Разработка алгоритмов построения пайплайнов машинного обучения методами обработки естественного языка, основанными на данныхAlgorithms development for building machine learning pipelines using data–driven natural language processing methods

Руководитель:
Устюжанин Андрей Евгеньевич (др. работы под рук-вом)
Члены комитета:
Ильвовский Дмитрий Алексеевич (НИУ ВШЭ, к.т.н., председатель комитета), Брыксин Тимофей Александрович (Constructor University Bremen gGmbH, к.т.н., член комитета), Игнатов Дмитрий Игоревич (НИУ ВШЭ, к.т.н., член комитета), Нозик Александр Аркадьевич (МФТИ, к.ф.-м.н, член комитета), Ямщиков Иван Павлович (Высшая Техническая Школа города Вюрцбург (Германия), PhD, член комитета)
Диссертация принята к предварительному рассмотрению:
11/28/2024
Диссертация принята к защите:
2/27/2025
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
5/13/2025
В диссертации рассматривается задача автоматического синтеза конвейеров машинного обучения (МО) из текстовых описаний задач на естественном языке, что является важным шагом в демократизации МО. Представлен фреймворк Linguacodus, который с использованием больших языковых моделей (БЯМ) генерирует компилируемый код из описаний задач, превосходя существующие решения по ключевым метрикам. Создан крупномасштабный корпус Code4ML, включающий 2,5 млн фрагментов кода, который в версии 2.0 дополнен методами планирования задач с использованием БЯМ, что позволило увеличить объем данных на 1,5 раза и улучшить их релевантность. Разработаны методы семантической классификации кода с применением предложенного дерева таксономии и автоматической генерации текстовых описаний задач на основе кода. Работа имеет значительную практическую ценность для автоматизации МО, предоставляя инструменты для снижения барьеров входа как для специалистов, так и для неспециалистов, и открывая перспективы для исследований и промышленного внедрения.
Диссертация [*.pdf, 10.79 Мб] (дата размещения 3/11/2025)
Резюме [*.pdf, 423.64 Кб] (дата размещения 3/11/2025)
Summary [*.pdf, 402.02 Кб] (дата размещения 3/11/2025)

Отзывы
Отзыв научного руководителя
Отзыв члена Комитета
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол № 2 от 13.05.2025). Решением диссертационного совета (протокол № 5 от 29.05.2025) присуждена ученая степень кандидата компьютерных наук.