• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Диссертации, представленные на защиту и подготовленные в НИУ ВШЭ

Сортировка:по дате защитыпо имени научного руководителяпо имени соискателя

Показаны работы: 1 - 10 из 33

Методы глубинного обучения для предсказания Z-ДНК на основе омиксных данныхКандидатская диссертацияУченая степень НИУ ВШЭ

Дисс. совет:
Совет по компьютерным наукам
Диссертация посвящена разработке модели глубокого обучения DeepZ для предсказания функциональных регионов Z-ДНК на уровне полного генома. Используя информацию о последовательности и структуре ДНК и омиксных данных, модель обеспечивает высокую точность ибиологическую интерпретируемость. В работе предложены методы эффективной предобработки и хранения омиксных данных и реализован метод анализа расширенного пространства признаков для определения биологически значимых функциональных классов Z-ДНК. Разработанный подход валидирован на геномах человека и мыши. Полученные результаты демонстрируют потенциалприменения методов машинного обучения для решения фундаментальных задач функциональной геномики и биоинформатики.

Моделирование исправления ошибок в английских текстах с использованием синтетических и концентрированных наборов данныхКандидатская диссертацияУченая степень НИУ ВШЭ

Соискатель:
Старченко Владимир Миронович
Дисс. совет:
Совет по филологии
Задача GEC (Grammatical Error Correction; автоматическое исправление ошибок) в настоящее время сталкивается с «кризисом разрешающей способности». Результаты новейших моделей GEC оказываются настолько высоки в соответствии с общепринятыми метриками, что превосходят точность разметки людей-экспертов друг относительно друга. Несмотря на это, модели всё ещё не справляются на достаточном уровне с исправлением отдельных типов ошибок, которые свободно исправляет образованный носитель языка. Для решения этой проблемы мы предлагаем методологию концентрированных датасетов, которые должны использоваться при оценке моделей и для их обучения. Мы сосредотачиваемся на двух группах ошибок: ошибок на уровне символов (~ошибки правописания) и ошибки чувствительные к контексту. На примере ошибок на уровне слова демонстрируется применение методологии на всех этапах. Мы показываем, что текущее качество моделей на этом типе ошибок низкое, и, опираясь на синтетический датасет, обосновываем плодотворность использования концентрированных датасетов для оценки моделей. С использованием концентрированных обучающих данных разрабатывается нетребовательная к ресурсам модель для проверки правописания, превышающая по качеству работы современные SOTA модели. Предлагается объяснение, в соответствии с которым низкая производительность современных больших языковых моделей при исправлении ошибок на уровне слова состоит в особенностях используемых ими токенизаторов. На материале ошибок, чувствительных к контексту, мы демонстрируем, что методология может быть расширена на типы ошибок, для которых создание синтетических данных проблематично, а также делаем ряд наблюдений относительно того, как тип ошибки, чувствительной к контексту, влияет на качество ее исправления.
Диссертация [*.pdf, 933.38 Кб] (дата размещения 7/3/2025)
Резюме [*.pdf, 263.89 Кб] (дата размещения 7/3/2025)
Summary [*.pdf, 208.58 Кб] (дата размещения 7/3/2025)

Моделирование влияния сентимента на биржевые характеристики криптоактивовКандидатская диссертацияУченая степень НИУ ВШЭ

Дисс. совет:
Совет по экономике
Дата защиты:
9/18/2025
Диссертационное исследование посвящено анализу влияния метрик сентимента инвесторов на пять биржевых характеристик криптовалюты Bitcoin, а также на суммарный объем дневных продаж NFT-активов. В  работе предложены авторские индексы сентимента RedditSI и NFT Hype Index для рынков Bitcoin и NFT соответственно. Индексы были построены на текстовых данных из социальных сетей с применением методов обработки естественного языка (NLP). RedditSI показал значимое влияние на биржевые характеристики BTC согласно всем рассмотренным методам статистического и событийного анализа, доказав, что может выступать в качестве полноценного индикатора настроений инвесторов на рынке ведущей криптовалюты. NFT Hype Index использовался в качестве одного из признаков при моделировании рынка NFT алгоритмами машинного обучения. Все подходы объяснимого искусственного интеллекта продемонстрировали превосходство NFT Hype Index над другими известными индексами сентимента при прогнозировании объема продаж NFT-токенов. Полученные результаты подтверждают гипотезу о том, что динамика рынков криптоактивов во многом определяется настроениями инвесторов в социальных сетях, выраженных через индексы сентимента.
Диссертация [*.pdf, 4.49 Мб] (дата размещения 7/1/2025)
Резюме [*.pdf, 455.59 Кб] (дата размещения 7/1/2025)
Summary [*.pdf, 365.88 Кб] (дата размещения 7/1/2025)

Модели и методы автоматического обнаружения, верификации и анализа недостоверной, искаженной и манипулятивной информации в текстовых данныхКандидатская диссертацияУченая степень НИУ ВШЭ

Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
9/5/2025
Диссертационное исследование посвящено разработке комплексного подхода к автоматическому анализу текстовых данных для выявления и противодействия распространению недостоверной информации. В работе исследованы три взаимосвязанных направления: автоматическая верификация фактов на основе авторитетных источников, поиск ранее проверенных утверждений и стилистический анализ манипулятивных техник в текстах. В рамках первого направления создан эффективный пайплайн для проверки фактов, включающий компоненты поиска информации и логического вывода. Разработана диагностическая таксономия для анализа моделей и предложен генеративный фреймворк, повышающий качество модели верификации. На основе метода реализована демонстрационная система. Для поиска ранее проверенных утверждений предложен комбинированный подход, объединяющий лексическую и семантическую схожесть текстов, для обучения которого разработана функция потерь BSC, превосходящая существующие методы. Кроме того, создан новый набор данных с применением техник distant supervision для обучения моделей. В области анализа манипулятивных техник представлен подход, включающий сегментацию и классификацию. В процессе выявлены и частично устранены общие недостатки Transformer-based моделей. Разработана классификационная схема для русскоязычных манипулятивных приемов и создан соответствующий набор данных. Результаты исследования формируют основу для создания автоматических систем противодействия дезинформации, что особенно актуально в современных условиях информационного общества.
Диссертация [*.pdf, 4.72 Мб] (дата размещения 7/5/2025)
Резюме [*.pdf, 998.82 Кб] (дата размещения 7/5/2025)
Summary [*.pdf, 960.82 Кб] (дата размещения 7/5/2025)

Применение глубоких нейросетевых моделей, учитывающих структурную лингвистическую информацию, в прикладных задачах анализа текстовых данныхКандидатская диссертацияУченая степень НИУ ВШЭ

Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
6/27/2025
Диссертация исследует методы интеграции лингвистических структур, в частности, дискурсивных, в современные модели обработки естественного языка (SOTA), такие как рекурсивные нейронные сети и Трансформеры. Представлены новые архитектуры RSTRecNN и DSNDM, эффективно кодирующие дискурсивные деревья. Эти модели демонстрируют высокие результаты в задачах анализа аргументации, тональности текстов, проверки фактов и ранжирования в вопросно-ответных системах. Для задачи генерации текста (NLG) предложен подход к оценке качества дискурсивной структуры, выявивший недостатки существующих моделей. Представлены методы с использованием планирования, улучшающие дискурсивную структуру при генерации как в повествовательных текстах, так и в диалогах. Также предложена модификация архитектуры BART, учитывающая больше типов лингвистической информации, что повышает качество генерации и интерпретируемость результатов. В работе также представлена демонстрационная система, решающая задачу обсуждения научных статей, не имеющая открытых аналогов. Наконец, предложена модификация Трансформера, интегрирующая дискурсивные признаки, которая превосходит существующие подходы в детекции манипулятивного контента. В ходе исследования были собраны и опубликованы в открытом доступе несколько новых наборов данных. В целом, работа подчеркивает важность учета лингвистической информации для повышения качества современных моделей обработки естественного языка и открывает перспективные направления для их дальнейшего развития в различных NLP-задачах.
Диссертация [*.pdf, 6.12 Мб] (дата размещения 4/26/2025)
Резюме [*.pdf, 1.07 Мб] (дата размещения 4/26/2025)
Summary [*.pdf, 1.09 Мб] (дата размещения 4/26/2025)

Моделирование репродуктивного поведения россиян в периоды шоков 2000-2023 годовКандидатская диссертацияУченая степень НИУ ВШЭ

Соискатель:
Горский Дмитрий Ильич
Дисс. совет:
Совет по экономике
Дата защиты:
6/11/2025
Диссертация посвящена анализу динамики репродуктивного поведения в России с 2000 по 2023 годы и объяснению влияния микро- и макроэкономических факторов в периоды шоков различной природы с помощью построения эконометрических моделей и моделей машинного обучения. Модели длительности показывают, что размер федеральной и региональных выплат программ материнского капитала положительно влияют на вероятность рождения второго ребенка. Оценки эффектов воздействия кризиса 2014 года выявили снижение числа рождений из-за резкого падения экономики. Модели бинарного выбора и методы машинного обучения продемонстрировали краткосрочный позитивный эффект COVID-19 на репродуктивные намерения россиян, уже имеющих хотя бы одного ребенка, в начале пандемии. Показано, что нестабильность воспринималась как время возможностей для деторождения. Наконец, на основе репрезентативного опроса населения России в мае 2023 года разработаны модели множественного выбора и модели честных деревьев, показавшие, что в условиях шоков 2022–2023 годов субъективные факторы, включая эмоциональное состояние, сильнее влияют на репродуктивные намерения, чем объективные характеристики (возраст, пол, семья). Результаты диссертационного исследования подчеркивают, что каждый шок имеет временную специфику и по-разному воздействует на репродуктивное поведение различных групп населения в России.
Диссертация [*.pdf, 2.16 Мб] (дата размещения 4/10/2025)
Резюме [*.pdf, 489.37 Кб] (дата размещения 4/10/2025)
Summary [*.pdf, 262.34 Кб] (дата размещения 4/10/2025)

Разработка алгоритмов построения пайплайнов машинного обучения методами обработки естественного языка, основанными на данныхКандидатская диссертация

Руководитель:
Устюжанин Андрей Евгеньевич
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
5/13/2025
В диссертации рассматривается задача автоматического синтеза конвейеров машинного обучения (МО) из текстовых описаний задач на естественном языке, что является важным шагом в демократизации МО. Представлен фреймворк Linguacodus, который с использованием больших языковых моделей (БЯМ) генерирует компилируемый код из описаний задач, превосходя существующие решения по ключевым метрикам. Создан крупномасштабный корпус Code4ML, включающий 2,5 млн фрагментов кода, который в версии 2.0 дополнен методами планирования задач с использованием БЯМ, что позволило увеличить объем данных на 1,5 раза и улучшить их релевантность. Разработаны методы семантической классификации кода с применением предложенного дерева таксономии и автоматической генерации текстовых описаний задач на основе кода. Работа имеет значительную практическую ценность для автоматизации МО, предоставляя инструменты для снижения барьеров входа как для специалистов, так и для неспециалистов, и открывая перспективы для исследований и промышленного внедрения.
Диссертация [*.pdf, 10.79 Мб] (дата размещения 3/11/2025)
Резюме [*.pdf, 423.64 Кб] (дата размещения 3/11/2025)
Summary [*.pdf, 402.02 Кб] (дата размещения 3/11/2025)

Ответы симпатической и парасимпатической нервных систем на когнитивную нагрузку как биомаркеры ментальных состоянийКандидатская диссертацияУченая степень НИУ ВШЭ

Дисс. совет:
Совет по когнитивным наукам
Дата защиты:
4/25/2025
Настоящее исследование направлено на изучение адаптивных реакций вегетативной нервной системы у людей с различными ментальными состояниями. В рамках четырёх экспериментов исследовались реакции симпатической и парасимпатической нервных систем на возрастание когнитивной нагрузки и ложную обратную связь, а также анализировались биомаркеры слюны до и после выполнения задания. В работе использовались методы айтрекинга, электрокардиографии, фотоплетизмографии, кожно-гальванической реакции, анализа дыхания и биомаркеров слюны. Для кластеризации и анализа данных применялись методы машинного обучения без учителя.Основные результаты показали, что симпатическая и парасимпатическая нервные системы демонстрируют нелинейные реакции на когнитивный стресс различных типов. Были выявлены кардиомаркеры, связанные с уровнями тревожности, депрессии и панических атак. Также обнаружены различные типы ответов вегетативной нервной системы, включая паттерны реакций зрачков, глазодвигательных показателей, кардиопараметров, а также когнитивных параметров, таких как время реакции, самооценка и количество правильных ответов. Эти результаты дополняют существующие знания и предоставляют новые данные, важные для понимания работы вегетативной нервной системы.Кроме того, анализ биомаркеров слюны показал, что уровень магния у участников с тревожными состояниями был изначально повышен, но снижался под воздействием стресса, что подтверждает роль магния в физиологических реакциях на стресс и тревогу.Таким образом, данное исследование развивает понимание реакции вегетативной нервной системы на когнитивную нагрузку, открывает новые перспективы для ранней диагностики и мониторинга динамики ментальных состояний, а также способствует разработке алгоритмов и улучшению методов персонализированной диагностики.
Диссертация [*.pdf, 8.59 Мб] (дата размещения 2/18/2025)
Резюме [*.pdf, 6.34 Мб] (дата размещения 2/18/2025)
Summary [*.pdf, 5.00 Мб] (дата размещения 2/18/2025)

Мультимодальное машинное зрениеКандидатская диссертацияУченая степень НИУ ВШЭ

Соискатель:
Сенюшкин Дмитрий Сергеевич
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
4/2/2025
В диссертации рассматривается проблема построения многозадачных многомодальных нейросетевых моделей нацеленных на решение практических задач компьютерного зрения. Подобного рода модели представляют интерес для применения на устройствах с ограниченным вычислительным бюджетом и при этом оснащенных дополнительными сенсорами, например, беспилотных автомобилях или смартфонах. В исследовании представлены несколько методов, касающихся применения многокритериальной оптимизации к обучению многозадачных моделей, а также построения нейросетевых архитектур для задач смешения и разделения информации из разных источников. Работа включает как теоретические результаты, так и практические эксперименты, демонстрирующие рост качества решения конкретных задач компьютерного зрения.
Диссертация [*.pdf, 20.10 Мб] (дата размещения 1/24/2025)
Резюме [*.pdf, 13.04 Мб] (дата размещения 1/24/2025)
Summary [*.pdf, 13.01 Мб] (дата размещения 1/24/2025)

Приложение машинного обучения к теоретико-игровым задачам: аукционы и марковские игрыКандидатская диссертацияУченая степень НИУ ВШЭ

Соискатель:
Иванов Дмитрий Игоревич
Дисс. совет:
Совет по компьютерным наукам
Дата защиты:
12/27/2024
В последние годы методы машинного обучения все чаще применяются для решения экономических и теоретико-игровых задач. В то же время, задачи машинного обучения с множеством агентов или пользователей могут быть формализованы и проанализированы с помощью теории игр. Данная диссертация состоит из трех независимых исследований на стыке этих областей и касается следующих тем: 1) применение методов глубокого обучения к дизайну экономических механизмов (аукционов), 2) адаптация теоретико-игрового концепта медиаторов к мультиагентному обучению с подкреплением в контексте марковских игр и 3) персонализация моделей глубокого обучения с подкреплением с целью максимизации общественного благосостояния. Все предложенные подходы и методы имеют надежную теоретическую основу и сопровождаются экспериментами в симуляторах.
Диссертация [*.pdf, 10.28 Мб] (дата размещения 9/29/2024)
Резюме [*.pdf, 2.11 Мб] (дата размещения 9/29/2024)
Summary [*.pdf, 2.03 Мб] (дата размещения 9/29/2024)