Бакалавриат
2024/2025





Развёртывание ML-моделей в высоконагруженных системах
Статус:
Курс по выбору (Прикладная математика и информатика)
Когда читается:
4-й курс, 3 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Программа дисциплины
Аннотация
В условиях стремительного роста популярности машинного обучения в бизнесе компании сталкиваются с новыми вызовами, связанными с эффективным развёртыванием и управлением ML-моделями. Этот курс даёт возможность студентам стать экспертами в этой области. На курсе мы предлагаем возможность узнать о самых современных решениях для развёртывания моделей и о том, как оптимизировать их производительность. Вы получите практические навыки, которые помогут вам не только ускорить работу ваших моделей, но и интегрировать их в инфраструктуру компании, используя передовые технологии, уже активно применяющиеся в крупных международных и российских компаниях. Курс включает в себя лекции и семинары, где мы будем сравнивать различные методы развёртывания. У каждого студента будет возможность быть не просто слушателем, но и создателем. На практике вы соберёте свою собственную модель, усложните её логику и научитесь оптимизировать ресурсы для создания системы, готовой к production’у. Основная цель курса — погрузить студентов в современные подходы к развёртыванию ML-решений — от линейной регрессии до LLM. Мы поможем вам развить ваши знания и навыки, чтобы вы могли уверенно применять их в условиях высоких нагрузок.
Цель освоения дисциплины
- Знать методы конвертации и оптимизации моделей для повышения их производительности.
- Знать методы мониторинга и сбора аналитики своих ML-моделей.
Планируемые результаты обучения
- Знать базовые архитектуры высоконагруженных систем.
- Знать базовые методы развёртывания ML-моделей.
- Знать продвинутые методы развёртывания ML-моделей в выосоконагруженных системах.
- Знать продвинутые методы работы с NVIDIA Triton Inference Server.
Содержание учебной дисциплины
- Вводное занятие. Общая информация.
- Знакомство с Triton Inference Server.
- Backends: python, dali, tensorrt, onnx, llm.
- Конвертация моделей.
- Ансамбли.
- Perf-analyzer.
- Сравнение подходов к развертыванию на практике.
- Итоговый проект, ответы на вопросы.
Элементы контроля
- Домашнее задание 1Выдаётся после семинара №2. Студентам необходимо построить triton-модель на основе любого чекпоинта классификационной модели с Hugging Face (для текстов или картинок) и Python Backend.
- Домашнее задание 2Выдаётся после семинара №3. Студентам необходимо взять любой чекпоинт классификационной модели с Hugging Face (для текстов или картинок), сконвертировать его в формат onnx и с помощью ONNX Backend построить triton-модель.
- Домашнее задание 3Выдаётся после семинара №5. Студентам необходимо взять любой чекпоинт классификационной модели с Hugging Face (для текстов или картинок) и на его основе построить triton-ансамбль, состоящий из не менее 3х triton-моделей.
- Финальный проектВыдаётся после семинара №7. Студентам необходимо взять любой чекпоинт классификационной модели с Hugging Face (для текстов или картинок), сконвертировать его в onnx и на его основе построить triton-ансамбль, состоящий из не менее 3х triton-моделей, после чего провести анализ перфоманса ансамбля и выявить узкие места для потенциального улучшения, составить отчёт.
Промежуточная аттестация
- 2024/2025 3rd moduleИтог = Округление(0.2 * ДЗ_1 + 0.25 * ДЗ_2 + 0.25 * ДЗ_3 + 0.3 * ПР) ДЗ_* — оценки за домашние работы ПР — оценка за финальный проект
Список литературы
Рекомендуемая основная литература
- Платонов, А. В. Машинное обучение : учебное пособие для вузов / А. В. Платонов. — Москва : Издательство Юрайт, 2024. — 85 с. — (Высшее образование). — ISBN 978-5-534-15561-7. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/544780 (дата обращения: 27.08.2024).
Рекомендуемая дополнительная литература
- Чио, К. Машинное обучение и безопасность : руководство / К. Чио, Д. Фримэн , перевод с английского А. В. Снастина. — Москва : ДМК Пресс, 2020. — 388 с. — ISBN 978-5-97060-713-8. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131707 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.