Бакалавриат
2025/2026





Построение пайплайнов данных
Статус:
Курс по выбору (Программная инженерия)
Где читается:
Факультет компьютерных наук
Когда читается:
3-й курс, 3, 4 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
5
Контактные часы:
60
Программа дисциплины
Аннотация
Курс посвящён проектированию, реализации и эксплуатации современных пайплайнов данных в распределённых средах. Рассматриваются архитектурные паттерны, технологии обработки данных, инфраструктура, оркестрация, а также вопросы надёжности, безопасности и качества данных.
Цель освоения дисциплины
- Формирование у студентов навыков проектирования и реализации пайплайнов данных, включая выбор архитектуры, оптимизацию производительности, внедрение DataOps-практик и обеспечение надёжности и безопасности
Планируемые результаты обучения
- Понимание основных архитектурных паттернов и принципов построения отказоустойчивых пайплайнов данных.
- Умение декомпозировать бизнес-задачу на требования к данным, формулировать SLA и метрики качества.
- Навык выбора оптимального формата хранения данных в зависимости от use case, понимание компромиссов между форматами.
- Умение реализовывать базовые алгоритмы обработки данных на RDD, работа с вложенными структурами и ошибками.
- Навык профилирования и оптимизации Spark-приложений, использование инструментов мониторинга и настройки производительности.
- Умение переводить алгоритмы на декларативный DataFrame API, использование встроенных функций Spark.
- Навык построения стриминг-пайплайнов, обработки событий в реальном времени, управления состоянием.
- Умение строить Lakehouse-хранилища с поддержкой версионирования, управлением изменениями и оптимизацией хранения.
- Навык настройки SQL-доступа к данным в Lakehouse, оптимизации запросов через партиционирование и индексацию.
- Умение разворачивать и настраивать инфраструктуру для пайплайнов данных в Kubernetes, управление ресурсами.
- Навык проектирования и оркестрации ETL-пайплайнов с использованием современных инструментов.
- Умение настраивать автоматизированные пайплайны сборки, тестирования и деплоя данных, работа с системами версионирования.
- Навык настройки безопасного доступа к данным, аутентификации и авторизации в распределённых системах.
- Умение настраивать систему мониторинга, метрики качества данных, визуализацию и алертинг для production-пайплайнов.
- Способность спроектировать, реализовать, задокументировать и презентовать готовый к production пайплайн данных.
- Умение проектировать архитектуру пайплайнов данных на основе бизнес-требований.
- Навык реализации ETL/ELT-процессов с использованием Apache Spark.
- Умение работать с современными хранилищами данных.
- Опыт настройки оркестрации пайплайнов.
- Навык обеспечения безопасности, мониторинга и качества данных в распределённых системах.
- Умение автоматизировать развёртывание и CI/CD для пайплайнов данных.
Содержание учебной дисциплины
- Основы архитектуры пайплайнов данных
- Аналитика для инженеров: от бизнес-задачи к требованиям данных
- Физический слой: файловые системы и форматы данных
- MapReduce и RDD: алгоритмические паттерны
- Оптимизация распределённых алгоритмов
- Apache Spark DataFrame: декларативная оптимизация
- Архитектура потоков данных: Kafka и стриминг-обработка
- Современные хранилища: Lakehouse и паттерны обработки изменений
- Распределённые SQL-движки: Hive и Trino/Presto
- Инфраструктура данных: YARN и Kubernetes
- Оркестрация пайплайнов: Argo Workflows и Airflow
- CI/CD, версионирование и управление конфигурацией
- Безопасность и управление доступом
- Наблюдаемость и качество данных
- Итоговый проект: защита сквозного решения по построению пайплайна данных
Элементы контроля
- Домашнее задание
- Домашнее задание 2
- Домашнее задание 3
- Домашнее задание 4
- Домашнее задание 5
- Домашнее задание 6
- Домашнее задание 7
- Домашнее задание 8
- Домашнее задание 9
- Домашнее задание 10
- Домашнее задание 11
- Домашнее задание 12
- Домашнее задание 13
- Домашнее задание 14
- Контрольная работа
- Экзамен
Промежуточная аттестация
- 2025/2026 4th module0.56 * Домашнее задание + 0 * Домашнее задание 10 + 0 * Домашнее задание 11 + 0 * Домашнее задание 12 + 0 * Домашнее задание 13 + 0 * Домашнее задание 14 + 0 * Домашнее задание 2 + 0 * Домашнее задание 3 + 0 * Домашнее задание 4 + 0 * Домашнее задание 5 + 0 * Домашнее задание 6 + 0 * Домашнее задание 7 + 0 * Домашнее задание 8 + 0 * Домашнее задание 9 + 0.22 * Контрольная работа + 0.22 * Экзамен
Список литературы
Рекомендуемая основная литература
- Apache Kafka. Потоковая обработка и анализ данных. 2-е изд. - 978-5-4461-2288-2 - Гвен Шапира, Тодд Палино, Раджини Сиварам, Крит Петти - 2023 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/390221 - 390221 - iBOOKS
- Kienzler, R. (2017). Mastering Apache Spark 2.x - Second Edition (Vol. 2nd ed). Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1562681
- Лукша, М. Kubernetes в действии / М. Лукша , перевод с английского А. В. Логунов. — Москва : ДМК Пресс, 2019. — 672 с. — ISBN 978-5-97060-657-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131688 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Apache Kafka. Потоковая обработка и анализ данных - 978-5-4461-0575-5 - Нархид Ния, Шапира Гвен, Палино Тодд - 2019 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/358152 - 358152 - iBOOKS
- Kubernetes: лучшие практики. - 978-5-4461-1688-1 - Бернс Брендан, Вильяльба Эдди, Штребель Дейв, Эвенсон Лахлан - 2021 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/377023 - 377023 - iBOOKS
- Мартишин С.А., Симонов В.Л., Храпченко М.В. - Базы данных: Работа с распределенными базами данных и файловыми системами на примере MongoDB и HDFS с использованием Node.js, Express.js, Apache Spark и Scala - 978-5-16-019845-3 - НИЦ ИНФРА-М - 2024 - https://znanium.ru/catalog/product/2139860 - 2139860 - ZNANIUM