• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2025/2026

Построение пайплайнов данных

Статус: Курс по выбору (Программная инженерия)
Когда читается: 3-й курс, 3, 4 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 5
Контактные часы: 60

Программа дисциплины

Аннотация

Курс посвящён проектированию, реализации и эксплуатации современных пайплайнов данных в распределённых средах. Рассматриваются архитектурные паттерны, технологии обработки данных, инфраструктура, оркестрация, а также вопросы надёжности, безопасности и качества данных.
Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование у студентов навыков проектирования и реализации пайплайнов данных, включая выбор архитектуры, оптимизацию производительности, внедрение DataOps-практик и обеспечение надёжности и безопасности
Планируемые результаты обучения

Планируемые результаты обучения

  • Понимание основных архитектурных паттернов и принципов построения отказоустойчивых пайплайнов данных.
  • Умение декомпозировать бизнес-задачу на требования к данным, формулировать SLA и метрики качества.
  • Навык выбора оптимального формата хранения данных в зависимости от use case, понимание компромиссов между форматами.
  • Умение реализовывать базовые алгоритмы обработки данных на RDD, работа с вложенными структурами и ошибками.
  • Навык профилирования и оптимизации Spark-приложений, использование инструментов мониторинга и настройки производительности.
  • Умение переводить алгоритмы на декларативный DataFrame API, использование встроенных функций Spark.
  • Навык построения стриминг-пайплайнов, обработки событий в реальном времени, управления состоянием.
  • Умение строить Lakehouse-хранилища с поддержкой версионирования, управлением изменениями и оптимизацией хранения.
  • Навык настройки SQL-доступа к данным в Lakehouse, оптимизации запросов через партиционирование и индексацию.
  • Умение разворачивать и настраивать инфраструктуру для пайплайнов данных в Kubernetes, управление ресурсами.
  • Навык проектирования и оркестрации ETL-пайплайнов с использованием современных инструментов.
  • Умение настраивать автоматизированные пайплайны сборки, тестирования и деплоя данных, работа с системами версионирования.
  • Навык настройки безопасного доступа к данным, аутентификации и авторизации в распределённых системах.
  • Умение настраивать систему мониторинга, метрики качества данных, визуализацию и алертинг для production-пайплайнов.
  • Способность спроектировать, реализовать, задокументировать и презентовать готовый к production пайплайн данных.
  • Умение проектировать архитектуру пайплайнов данных на основе бизнес-требований.
  • Навык реализации ETL/ELT-процессов с использованием Apache Spark.
  • Умение работать с современными хранилищами данных.
  • Опыт настройки оркестрации пайплайнов.
  • Навык обеспечения безопасности, мониторинга и качества данных в распределённых системах.
  • Умение автоматизировать развёртывание и CI/CD для пайплайнов данных.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы архитектуры пайплайнов данных
  • Аналитика для инженеров: от бизнес-задачи к требованиям данных
  • Физический слой: файловые системы и форматы данных
  • MapReduce и RDD: алгоритмические паттерны
  • Оптимизация распределённых алгоритмов
  • Apache Spark DataFrame: декларативная оптимизация
  • Архитектура потоков данных: Kafka и стриминг-обработка
  • Современные хранилища: Lakehouse и паттерны обработки изменений
  • Распределённые SQL-движки: Hive и Trino/Presto
  • Инфраструктура данных: YARN и Kubernetes
  • Оркестрация пайплайнов: Argo Workflows и Airflow
  • CI/CD, версионирование и управление конфигурацией
  • Безопасность и управление доступом
  • Наблюдаемость и качество данных
  • Итоговый проект: защита сквозного решения по построению пайплайна данных
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
  • неблокирующий Домашнее задание 2
  • неблокирующий Домашнее задание 3
  • неблокирующий Домашнее задание 4
  • неблокирующий Домашнее задание 5
  • неблокирующий Домашнее задание 6
  • неблокирующий Домашнее задание 7
  • неблокирующий Домашнее задание 8
  • неблокирующий Домашнее задание 9
  • неблокирующий Домашнее задание 10
  • неблокирующий Домашнее задание 11
  • неблокирующий Домашнее задание 12
  • неблокирующий Домашнее задание 13
  • неблокирующий Домашнее задание 14
  • неблокирующий Контрольная работа
  • неблокирующий Экзамен
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 4th module
    0.56 * Домашнее задание + 0 * Домашнее задание 10 + 0 * Домашнее задание 11 + 0 * Домашнее задание 12 + 0 * Домашнее задание 13 + 0 * Домашнее задание 14 + 0 * Домашнее задание 2 + 0 * Домашнее задание 3 + 0 * Домашнее задание 4 + 0 * Домашнее задание 5 + 0 * Домашнее задание 6 + 0 * Домашнее задание 7 + 0 * Домашнее задание 8 + 0 * Домашнее задание 9 + 0.22 * Контрольная работа + 0.22 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Apache Kafka. Потоковая обработка и анализ данных. 2-е изд. - 978-5-4461-2288-2 - Гвен Шапира, Тодд Палино, Раджини Сиварам, Крит Петти - 2023 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/390221 - 390221 - iBOOKS
  • Kienzler, R. (2017). Mastering Apache Spark 2.x - Second Edition (Vol. 2nd ed). Birmingham: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1562681
  • Лукша, М. Kubernetes в действии / М. Лукша , перевод с английского А. В. Логунов. — Москва : ДМК Пресс, 2019. — 672 с. — ISBN 978-5-97060-657-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131688 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Apache Kafka. Потоковая обработка и анализ данных - 978-5-4461-0575-5 - Нархид Ния, Шапира Гвен, Палино Тодд - 2019 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/358152 - 358152 - iBOOKS
  • Kubernetes: лучшие практики. - 978-5-4461-1688-1 - Бернс Брендан, Вильяльба Эдди, Штребель Дейв, Эвенсон Лахлан - 2021 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/377023 - 377023 - iBOOKS
  • Мартишин С.А., Симонов В.Л., Храпченко М.В. - Базы данных: Работа с распределенными базами данных и файловыми системами на примере MongoDB и HDFS с использованием Node.js, Express.js, Apache Spark и Scala - 978-5-16-019845-3 - НИЦ ИНФРА-М - 2024 - https://znanium.ru/catalog/product/2139860 - 2139860 - ZNANIUM

Авторы

  • Емашева Валерия Анатольевна