Разработка алгоритмов построения пайплайнов машинного обучения методами обработки естественного языка, основанными на данныхAlgorithms development for building machine learning pipelines using data–driven natural language processing methods
Соискатель:
Руководитель:
Устюжанин Андрей Евгеньевич (др. работы под рук-вом)
Члены комитета:
Ильвовский Дмитрий Алексеевич (НИУ ВШЭ, к.т.н., председатель комитета), Брыксин Тимофей Александрович (Constructor University Bremen gGmbH, к.т.н., член комитета), Игнатов Дмитрий Игоревич (НИУ ВШЭ, к.т.н., член комитета), Нозик Александр Аркадьевич (МФТИ, к.ф.-м.н, член комитета), Ямщиков Иван Павлович (Высшая Техническая Школа города Вюрцбург (Германия), PhD, член комитета)
Диссертация принята к предварительному рассмотрению:
11/28/2024
Диссертация принята к защите:
2/27/2025
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
5/13/2025
В диссертации рассматривается задача автоматического синтеза конвейеров машинного обучения (МО) из текстовых описаний задач на естественном языке, что является важным шагом в демократизации МО. Представлен фреймворк Linguacodus, который с использованием больших языковых моделей (БЯМ) генерирует компилируемый код из описаний задач, превосходя существующие решения по ключевым метрикам. Создан крупномасштабный корпус Code4ML, включающий 2,5 млн фрагментов кода, который в версии 2.0 дополнен методами планирования задач с использованием БЯМ, что позволило увеличить объем данных на 1,5 раза и улучшить их релевантность. Разработаны методы семантической классификации кода с применением предложенного дерева таксономии и автоматической генерации текстовых описаний задач на основе кода. Работа имеет значительную практическую ценность для автоматизации МО, предоставляя инструменты для снижения барьеров входа как для специалистов, так и для неспециалистов, и открывая перспективы для исследований и промышленного внедрения.
Диссертация [*.pdf, 10.79 Мб] (дата размещения 3/11/2025)
Резюме [*.pdf, 423.64 Кб] (дата размещения 3/11/2025)
Summary [*.pdf, 402.02 Кб] (дата размещения 3/11/2025)
Публикации, в которых излагаются основные результаты диссертации
Berezovskiy V., Gorodilova A., Trofimova E., Ustyuzhanin A. Machine learning code snippets semantic classification (смотреть на сайте журнала)
Drozdova A., Trofimova E., Guseva P., Scherbakova A., Ustyuzhanin A. Code4ML: a large-scale dataset of annotated Machine Learning code (смотреть на сайте журнала)
Trofimova E., Sataev E., Ustyuzhanin A. Linguacodus: a synergistic framework for transformative code generation in machine learning pipelines (смотреть на сайте журнала)
Отзывы
Отзыв научного руководителя
- Устюжанин Андрей Евгеньевич (дата размещения 1/14/2025)
Отзыв члена Комитета
- Нозик Александр Аркадьевич (дата размещения 4/28/2025)
- Ильвовский Дмитрий Алексеевич (дата размещения 4/28/2025)
- Брыксин Тимофей Александрович (дата размещения 4/28/2025)
- Игнатов Дмитрий Игоревич (дата размещения 4/28/2025)
- Ямщиков Иван Павлович (дата размещения 4/28/2025)
Сведения о результатах защиты:
Комитет по диссертации рекомендовал присудить ученую степень кандидата наук (протокол № 2 от 13.05.2025). Решением диссертационного совета (протокол № 5 от 29.05.2025) присуждена ученая степень кандидата компьютерных наук.
См. на ту же тему
Методы глубинного обучения для предсказания Z-ДНК на основе омиксных данныхКандидатская диссертация
Соискатель: Бекназаров Назар Сохибжонович
Руководитель: Попцова Мария Сергеевна
Влияние цифровой трансформации и перехода к принципам устойчивого развития на результаты деятельности в корпорациях в КитаеКандидатская диссертация
Соискатель: Ву Яньфэй
Руководитель: Ивашковская Ирина Васильевна
Организационно-правовые основы информационного обеспечения и применения искусственного интеллекта в деятельности правоохранительных органовКандидатская диссертация
Соискатель: Барчуков Вадим Каримович
Руководитель: Расторопов Сергей Владимирович