Современный NLP и большие языковые модели

Магистратура 2025/2026

Лучший по критерию «Новизна полученных знаний»

Статус: Курс обязательный (Прикладные модели искусственного интеллекта)

Кто читает: Департамент прикладной математики

Где читается: Московский институт электроники и математики им. А.Н. Тихонова

Когда читается: 1-й курс, 1, 2 модуль

Охват аудитории: для своего кампуса

Преподаватели: Сластников Сергей Александрович

Язык: русский

Кредиты: 6

Контактные часы: 40

Дополнительные материалы в LMS Задать вопрос

Аннотация

В ходе курса студенты познакомятся с основами архитектур трансформеров, инструментами для работы с крупными моделями и современными подходами к их предобучению и выравниванию. Они изучат методы оценки и повышения эффективности моделей, а также освоят применение LLM в различных сценариях, включая мультимодальные системы, агентные системы, гибридные модели и практические задачи в реальных продуктах. В результате студенты смогут разрабатывать, адаптировать и внедрять современные LLM в разнообразные области, учитывая их особенности, возможности и ограничения.

Цель освоения дисциплины

Целью освоения дисциплины является изучение современных технологий и методов разработки, обучения и применения больших языковых моделей (LLM).

Планируемые результаты обучения

- выполнять токенизацию текста с использованием различных методов; - интерпретировать вероятностную природу языковых моделей; - реализовывать и сравнивать методы генерации текста, такие как greedy, sampling и с использованием температуры; - применять классические модели обработки языка, такие как n-gram, рекуррентные нейронные сети и Seq2Seq, для задач генерации и анализа текста
- реализовывать нейросетевые архитектуры, применяемые в NLP; - применять инструменты PyTorch для оптимизации и тестирования моделей; - интегрировать полученные навыки в практические задачи обработки текста, повышая качество и эффективность решений.
Уметь: - сравнивать и анализировать концептуальные отличия, области применения и исторические особенности моделей BERT, T5 и GPT; - применять методы оптимизации трансформерных моделей, такие как mixed precision, апкастинг и фьюзинг, для повышения эффективности обучения и инференса.
Уметь: - применять эти методы для масштабирования и распределенного обучения больших нейросетевых моделей; - оптимизировать использование вычислительных ресурсов и повышать производительность при работе с крупными NLP-моделями.
Уметь: - анализировать архитектурные особенности моделей типа LLaMA, Gemma, Qwen, DeepSeek и других; - применять методы расширения словарей и непрерывного предобучения (continuous pretrain) для улучшения качества и производительности моделей.
Уметь: - применять алгоритмы Bradley-Terry, PPO, DPO, KTO, SimPO и другие подходы для обучения с предпочтениями; - собирать, генерировать и фильтровать данные для обучения моделей, ориентированных на предпочтения; - использовать методы сбора преференсов и distilabel для повышения качества и эффективности обучения моделей, направленных на улучшение пользовательского опыта.
Уметь оценивать необходимость применения Mixture of Experts исходя из специфики решаемой задачи
Уметь: - анализировать проблемы, связанные с форматами оценки, предвзятостью и согласованностью результатов; - правильно применять комбинацию автоматических оценщиков (LLM-as-judge) и различных бенчмарков для объективной и надежной оценки качества моделей.
Уметь: - использовать инструменты и библиотеки, такие как vllm с поддержкой paged attention, форматы gguf и системы Ray для распределенного вычисления; - применять эти технологии для повышения эффективности, масштабируемости и производительности при работе с крупными NLP-моделями.
Уметь: - использовать платформу LangChain и другие инструменты для построения сложных цепочек взаимодействий; - автоматизировать задачи и повышать эффективность работы с большими языковыми моделями в различных сценариях.
Уметь выбирать подходящую мультимодальную архитектуру в зависимости от поставленных целей проекта, учитывая вычислительные ресурсы и требуемое качество результата
Уметь применять практические инструменты, такие как LangChain и Weaviate, для реализации систем поиска, обработки и интеграции текстовой информации в задачах NLP и информационного поиска
Знать отличия классических SSM от других видов моделей
Уметь: - использовать подходы и инструменты, такие как Dify, для повышения надежности и точности генерации; - применять методы для минимизации ошибок и нежелательных отклонений в выводах моделей.
Знать -способы автоматического выявления недостоверной информации и дезинформации; - типы угроз и атаки на LLM, методы защиты.
Уметь анализировать текущие тенденции и будущие направления развития рынка решений на основе LLM