• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2025/2026

Введение в Data Engineering

Статус: Маго-лего
Когда читается: 2 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3
Контактные часы: 16

Программа дисциплины

Аннотация

Курс посвящён современным архитектурам хранения и обработки данных, используемым в системах искусственного интеллекта и data-driven продуктах. Студенты изучат эволюцию подходов от классического SQL и DWH до Data Lake, Lakehouse и Streamhouse, а также разберут, как строятся масштабируемые аналитические и потоковые платформы в индустрии. Практическая часть курса ориентирована на проектирование end-to-end data-платформ: от источников транзакционных данных и CDC до аналитических витрин и BI. Курс будет полезен студентам, планирующим карьеру в Data Engineering, Machine Learning Engineering и MLOps, а также тем, кто работает с данными в продакшене и хочет понимать, как устроена современная data-инфраструктура.
Цель освоения дисциплины

Цель освоения дисциплины

  • • Знать основные подходы к хранению и обработке аналитических данных.
  • • Понимать архитектуру и назначение DWH, Data Lake, Lakehouse и Streamhouse.
  • • Уметь проектировать слоистые модели данных (raw / ods / dm).
  • • Знать принципы работы потоковой обработки данных и CDC.
  • • Уметь выбирать архитектурные решения под задачи аналитики и ML.
  • • Понимать роль BI-инструментов в data-платформах.
  • • Уметь проектировать data-пайплайны для batch- и stream-нагрузок.
  • • Ориентироваться в современных индустриальных стеках работы с данными.
Планируемые результаты обучения

Планируемые результаты обучения

  • • объясняет различия между DWH, Data Lake, Lakehouse и Streamhouse;
  • • проектирует архитектуру аналитической платформы под заданные требования;
  • • создает логическую модель данных с выделением слоев raw, ods и dm;
  • • использует SQL для аналитических запросов и трансформаций данных;
  • • применяет CDC-подходы для обработки изменений в транзакционных базах;
  • • разрабатывает пайплайны обработки потоковых данных;
  • • обосновывает выбор технологий хранения и обработки данных;
  • • интегрирует аналитические витрины с BI-инструментами.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Реляционная модель данных, основы SQL, аналитические запросы, агрегации и оконные функции.
  • Архитектура хранилищ данных, слоистая модель, схемы «звезда» и «снежинка», ETL/ELT.
  • Роль BI в data-платформах, обзор BI-инструментов, принципы построения дашбордов.
  • Концепция Data Lake, форматы хранения данных, управление схемами и качеством данных.
  • Архитектура Lakehouse, объединение Data Lake и DWH, транзакционность и версионирование данных.
  • Потоковая обработка данных, CDC, real-time аналитика и stream-first архитектуры.
  • Современные тренды в data-инфраструктуре и архитектурные паттерны.
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
    Домашнее задание посвящено проектированию и реализации архитектуры обработки потоковых данных из транзакционной базы. Студенту необходимо спроектировать слоистую модель данных (raw / ods / dm) и реализовать пайплайн загрузки изменений из транзакционной базы данных с использованием CDC. В рамках задания используется стек Debezium (CDC), PostgreSQL (источник данных) и ClickHouse (аналитическое хранилище). Практический проект, включающий архитектурную схему, описание слоев данных и рабочий прототип пайплайна загрузки данных.
  • неблокирующий Домашнее задание 2
    Домашнее задание посвящено построению аналитической витрины данных для анализа фрода и визуализации результатов в BI-инструменте. Студенту необходимо спроектировать слой cdm, содержащий информацию о транзакциях и типах фрода, затем сформировать слой dm с агрегированными показателями по датам и видам фрода. На основе итоговой витрины требуется построить дашборд в Metabase со стековой столбчатой диаграммой (stacked bar chart), отображающей динамику фрода по датам и типам.
  • неблокирующий Домашнее задание 3
    Домашнее задание посвящено практической работе с Lakehouse-архитектурой. Студенту предлагается выбрать один из готовых пресетов (Apache Hudi / Apache Iceberg с Apache Spark либо Apache Paimon с Apache Flink) и реализовать загрузку данных в таблицы Lakehouse с использованием SQL. В рамках задания необходимо продемонстрировать создание таблиц, загрузку данных и обработку обновлений (insert / update / delete) в соответствии с выбранной технологией.
  • неблокирующий Тест
    Тест проводится по материалам курса и направлен на проверку базового понимания ключевых концепций архитектур хранения и обработки данных.
  • неблокирующий Экзамен
    Экзамен направлен на проверку архитектурного понимания принципов построения систем хранения и обработки данных, а также умения анализировать потоковые и аналитические data-платформы.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    Экзамен состоит из: практической части (ДЗ-3), теории в формате теста (ТЕСТ) и ответов на вопросы преподавателя (ЭКЗ). Итог = Округление (0.2 ЭКЗ + 0.2 ТЕСТ + 0.3 * ДЗ-1 + 0.2 * ДЗ-2 + 0.1 * ДЗ-3), где ДЗ - оценка за домашние задания, ТЕСТ - оценка за тестирование, ЭКЗ - оценка за экзамен. 0.2 ЭКЗ + 0.2 ТЕСТ рассчитывается в рамках экзамена, который также можно сдать на пересдаче.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Kleppmann, M. (2017). Designing Data-Intensive Applications : The Big Ideas Behind Reliable, Scalable, and Maintainable Systems. Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1487643

Рекомендуемая дополнительная литература

  • Kimball, R., & Ross, M. (2013). The Data Warehouse Toolkit : The Definitive Guide to Dimensional Modeling (Vol. 3rd edition). Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=605991

Авторы

  • Ахмедова Гюнай Интигам кызы