Магистратура
2025/2026


DataOps
Статус:
Курс обязательный (Инженерия данных)
Где читается:
Факультет компьютерных наук
Когда читается:
2-й курс, 2, 3 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Касьяненко Дарья Алексеевна
Язык:
русский
Кредиты:
6
Контактные часы:
48
Программа дисциплины
Аннотация
Курс предоставляет студентам комплекс теоретических знаний и методологических основ в области технологий построения пайплайнов для обслуживания ML-моделей, включая работу с данными и моделями в промышленных условиях. В ходе обучения студенты изучают концепции MLOps, DataOps, DevOps, включая процессы управления данными, автоматизацию и оптимизацию процессов, а также управление версиями данных. Они также получают практические навыки использования инструментов CI/CD для непрерывной интеграции, развертывания и тестирования данных.
Цель освоения дисциплины
- Формирование знаний, умений и навыков развертывания и управления данными
- Автоматизация процессов в инженерии данных
- Построение пайплайнов для обслуживания ML-моделей
Планируемые результаты обучения
- знать основы MLOps, этапы жизненного цикла ML модели, ключевые проблемы и решения;
- описывать полный жизненный цикл ML модели;
- планировать архитектуры ML проекта;
- понимать требования к инфраструктуре;
- -знать основы MLOps, этапы жизненного цикла ML модели, ключевые проблемы и решения
- -описывать полный жизненный цикл ML модели
- -планировать архитектуры ML проекта
- -понимать требования к инфраструктуре
- -знать принципы организации ML проектов, основы управления зависимостями, Git workflow
- -создавать структуру проекта, настраивать окружение с UV, работать с Git
- -создавать baseline модели, управление зависимостями проекта
- -знать принципы создания ML API, основы pytest, документирование API
- -уметь создавать endpoints для ML модели, писать тесты, валидировать данные
- -разрабатывать ML API, тестирование ML сервисов
- -знать основы облачных технологий, принципы ценообразования
- -выбирать подходящие облачные сервисы, планировать архитектуру
- -работать с облачными платформами, планировать ресурсы
- -знать основы работы с Yandex.Cloud, принципы управления доступом
- -создавать и настраивать облачные ресурсы вручную, работать с веб-интерфейсом Yandex.Cloud
- -знать принципы IaC, различия между Terraform и Ansible, best practices
- -выбирать подходящие инструменты для автоматизации инфраструктуры
- -понимать декларативный и императивный подходы к IaC
- -знать синтаксис Terraform HCL, принципы работы с state
- -писать Terraform конфигурации, планировать изменения
- -навыки автоматизации создания облачной инфраструктуры
- -знать синтаксис Ansible YAML, концепцию playbooks и roles
- -уметь создавать playbooks для настройки окружения, навыки автоматизации конфигурации серверов
- -знать принципы контейнеризации, особенности ML приложений в контейнерах
- -уметь выбирать стратегии контейнеризации для ML проектов
- -навыки планирования архитектуры контейнеризованных ML приложений
- -знать синтаксис Dockerfile, принципы Docker Compose
- -создавать эффективные Docker образы, настраивать локальное окружение
- -навыки контейнеризаци ML приложений, оптимизации образов
- -знать архитектуру GitLab, типы runners, принципы безопасности
- -устанавливать и настраивать GitLab и runners
- -навыки администрирования GitLab, настройки CI/CD инфраструктуры
- -знать синтаксис GitLab CI, принципы pipeline as code
- -создавать CI/CD пайплайны, интегрировать с Docker
- -навыки автоматизация процессов разработки, DevOps практики
- -знать основы Kubernetes
- -навыки понимания Kubernetes как важного компонента в современном ML
- -знать основные объекты Kubernetes, принципы сетевого взаимодействия
- -уметь создавать и управлять Kubernetes ресурсами
- -навыки деплой приложений в Kubernetes, диагностика проблем
- -знать структуру Helm charts, синтаксис шаблонов
- -уметь создавать переиспользуемые Helm charts
- -навыки: пакетирование Kubernetes приложений
- -знать принципы GitOps, возможности Argo CD
- -уметь настраивать автоматический деплой через Git
- -навыки: реализация GitOps workflow для ML проектов
- -знать особенности версионирования в ML, принципы работы с данными
- -уметь планировать стратегии версионирования и логирования
- -навыки: управление данными в ML проектах
- -знать принципы работы с БД в ML
- -уметь настраивать БД для ML проектов, создавать миграции
- -навыки: интеграция БД с ML сервисами, оптимизация производительности
- -знать принципы версионирования данных, концепцию DVC pipeline
- -уметь создавать воспроизводимые ML pipeline с DVC
- -навыки: управление версиями данных и моделей
- -знать возможности MLflow, принципы experiment tracking
- -уметь логировать эксперименты, управлять моделями через Registry
- -навыки: организация ML экспериментов, version control для моделей
Содержание учебной дисциплины
- Введение в MLOps. Жизненный цикл ML.
- Введение в MLOps. Жизненный цикл ML.
- Организация исходного кода.
- ML-сервис.
- Облачная инженерия.
- Развёртывания облачных ресурсов.
- Инфраструктура как код. Terraform и Ansible.
- Автоматизация развертывания ресурсов.
- Конфигурация среды.
- Контейнеризация и автоматизация доставки ML-приложений.
- Сборка образов.
- GitLab и GitLab Runner.
- GitLab CI/CD.
- Введение в Kubernetes.
- k8s ресурсы.
- Helm.
- GitOps.
- Версионирование, логирование и работа с данными.
- Работа с БД в ML-проектах.
- DVC.
- MLflow.