Развёртывание ML-моделей в высоконагруженных системах

Бакалавриат 2024/2025

Статус: Курс по выбору (Прикладная математика и информатика)

Кто читает: Департамент больших данных и информационного поиска

Когда читается: 4-й курс, 3 модуль

Охват аудитории: для своего кампуса

Язык: русский

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

В условиях стремительного роста популярности машинного обучения в бизнесе компании сталкиваются с новыми вызовами, связанными с эффективным развёртыванием и управлением ML-моделями. Этот курс даёт возможность студентам стать экспертами в этой области. На курсе мы предлагаем возможность узнать о самых современных решениях для развёртывания моделей и о том, как оптимизировать их производительность. Вы получите практические навыки, которые помогут вам не только ускорить работу ваших моделей, но и интегрировать их в инфраструктуру компании, используя передовые технологии, уже активно применяющиеся в крупных международных и российских компаниях. Курс включает в себя лекции и семинары, где мы будем сравнивать различные методы развёртывания. У каждого студента будет возможность быть не просто слушателем, но и создателем. На практике вы соберёте свою собственную модель, усложните её логику и научитесь оптимизировать ресурсы для создания системы, готовой к production’у. Основная цель курса — погрузить студентов в современные подходы к развёртыванию ML-решений — от линейной регрессии до LLM. Мы поможем вам развить ваши знания и навыки, чтобы вы могли уверенно применять их в условиях высоких нагрузок.

Цель освоения дисциплины

Знать методы конвертации и оптимизации моделей для повышения их производительности.
Знать методы мониторинга и сбора аналитики своих ML-моделей.

Планируемые результаты обучения

Знать базовые архитектуры высоконагруженных систем.
Знать базовые методы развёртывания ML-моделей.
Знать продвинутые методы развёртывания ML-моделей в выосоконагруженных системах.
Знать продвинутые методы работы с NVIDIA Triton Inference Server.

Содержание учебной дисциплины

Вводное занятие. Общая информация.
Знакомство с Triton Inference Server.
Backends: python, dali, tensorrt, onnx, llm.
Конвертация моделей.
Ансамбли.
Perf-analyzer.
Сравнение подходов к развертыванию на практике.
Итоговый проект, ответы на вопросы.

Элементы контроля

Домашнее задание 1
Выдаётся после семинара №2. Студентам необходимо построить triton-модель на основе любого чекпоинта классификационной модели с Hugging Face (для текстов или картинок) и Python Backend.
Домашнее задание 2
Выдаётся после семинара №3. Студентам необходимо взять любой чекпоинт классификационной модели с Hugging Face (для текстов или картинок), сконвертировать его в формат onnx и с помощью ONNX Backend построить triton-модель.
Домашнее задание 3
Выдаётся после семинара №5. Студентам необходимо взять любой чекпоинт классификационной модели с Hugging Face (для текстов или картинок) и на его основе построить triton-ансамбль, состоящий из не менее 3х triton-моделей.
Финальный проект
Выдаётся после семинара №7. Студентам необходимо взять любой чекпоинт классификационной модели с Hugging Face (для текстов или картинок), сконвертировать его в onnx и на его основе построить triton-ансамбль, состоящий из не менее 3х triton-моделей, после чего провести анализ перфоманса ансамбля и выявить узкие места для потенциального улучшения, составить отчёт.

Промежуточная аттестация

2024/2025 3rd module
Итог = Округление(0.2 * ДЗ_1 + 0.25 * ДЗ_2 + 0.25 * ДЗ_3 + 0.3 * ПР) ДЗ_* — оценки за домашние работы ПР — оценка за финальный проект

Программа дисциплины