Введение в Data Engineering

2025/2026

Статус: Маго-лего

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 2 модуль

Охват аудитории: для своего кампуса

Язык: русский

Кредиты: 3

Контактные часы: 16

Дополнительные материалы в LMS Задать вопрос

Аннотация

Курс посвящён современным архитектурам хранения и обработки данных, используемым в системах искусственного интеллекта и data-driven продуктах. Студенты изучат эволюцию подходов от классического SQL и DWH до Data Lake, Lakehouse и Streamhouse, а также разберут, как строятся масштабируемые аналитические и потоковые платформы в индустрии. Практическая часть курса ориентирована на проектирование end-to-end data-платформ: от источников транзакционных данных и CDC до аналитических витрин и BI. Курс будет полезен студентам, планирующим карьеру в Data Engineering, Machine Learning Engineering и MLOps, а также тем, кто работает с данными в продакшене и хочет понимать, как устроена современная data-инфраструктура.

Цель освоения дисциплины

• Знать основные подходы к хранению и обработке аналитических данных.
• Понимать архитектуру и назначение DWH, Data Lake, Lakehouse и Streamhouse.
• Уметь проектировать слоистые модели данных (raw / ods / dm).
• Знать принципы работы потоковой обработки данных и CDC.
• Уметь выбирать архитектурные решения под задачи аналитики и ML.
• Понимать роль BI-инструментов в data-платформах.
• Уметь проектировать data-пайплайны для batch- и stream-нагрузок.
• Ориентироваться в современных индустриальных стеках работы с данными.

Планируемые результаты обучения

• объясняет различия между DWH, Data Lake, Lakehouse и Streamhouse;
• проектирует архитектуру аналитической платформы под заданные требования;
• создает логическую модель данных с выделением слоев raw, ods и dm;
• использует SQL для аналитических запросов и трансформаций данных;
• применяет CDC-подходы для обработки изменений в транзакционных базах;
• разрабатывает пайплайны обработки потоковых данных;
• обосновывает выбор технологий хранения и обработки данных;
• интегрирует аналитические витрины с BI-инструментами.

Содержание учебной дисциплины

Реляционная модель данных, основы SQL, аналитические запросы, агрегации и оконные функции.
Архитектура хранилищ данных, слоистая модель, схемы «звезда» и «снежинка», ETL/ELT.
Роль BI в data-платформах, обзор BI-инструментов, принципы построения дашбордов.
Концепция Data Lake, форматы хранения данных, управление схемами и качеством данных.
Архитектура Lakehouse, объединение Data Lake и DWH, транзакционность и версионирование данных.
Потоковая обработка данных, CDC, real-time аналитика и stream-first архитектуры.
Современные тренды в data-инфраструктуре и архитектурные паттерны.

Элементы контроля

Домашнее задание 1
Домашнее задание посвящено проектированию и реализации архитектуры обработки потоковых данных из транзакционной базы. Студенту необходимо спроектировать слоистую модель данных (raw / ods / dm) и реализовать пайплайн загрузки изменений из транзакционной базы данных с использованием CDC. В рамках задания используется стек Debezium (CDC), PostgreSQL (источник данных) и ClickHouse (аналитическое хранилище). Практический проект, включающий архитектурную схему, описание слоев данных и рабочий прототип пайплайна загрузки данных.
Домашнее задание 2
Домашнее задание посвящено построению аналитической витрины данных для анализа фрода и визуализации результатов в BI-инструменте. Студенту необходимо спроектировать слой cdm, содержащий информацию о транзакциях и типах фрода, затем сформировать слой dm с агрегированными показателями по датам и видам фрода. На основе итоговой витрины требуется построить дашборд в Metabase со стековой столбчатой диаграммой (stacked bar chart), отображающей динамику фрода по датам и типам.
Домашнее задание 3
Домашнее задание посвящено практической работе с Lakehouse-архитектурой. Студенту предлагается выбрать один из готовых пресетов (Apache Hudi / Apache Iceberg с Apache Spark либо Apache Paimon с Apache Flink) и реализовать загрузку данных в таблицы Lakehouse с использованием SQL. В рамках задания необходимо продемонстрировать создание таблиц, загрузку данных и обработку обновлений (insert / update / delete) в соответствии с выбранной технологией.
Тест
Тест проводится по материалам курса и направлен на проверку базового понимания ключевых концепций архитектур хранения и обработки данных.
Экзамен
Экзамен направлен на проверку архитектурного понимания принципов построения систем хранения и обработки данных, а также умения анализировать потоковые и аналитические data-платформы.

Промежуточная аттестация

2025/2026 2nd module
Экзамен состоит из: практической части (ДЗ-3), теории в формате теста (ТЕСТ) и ответов на вопросы преподавателя (ЭКЗ). Итог = Округление (0.2 ЭКЗ + 0.2 ТЕСТ + 0.3 * ДЗ-1 + 0.2 * ДЗ-2 + 0.1 * ДЗ-3), где ДЗ - оценка за домашние задания, ТЕСТ - оценка за тестирование, ЭКЗ - оценка за экзамен. 0.2 ЭКЗ + 0.2 ТЕСТ рассчитывается в рамках экзамена, который также можно сдать на пересдаче.

Список литературы

Авторы

Ахмедова Гюнай Интигам кызы

Программа дисциплины