2025/2026





Введение в Data Engineering
Статус:
Маго-лего
Где читается:
Факультет компьютерных наук
Когда читается:
2 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Контактные часы:
16
Программа дисциплины
Аннотация
Курс посвящён современным архитектурам хранения и обработки данных, используемым в системах искусственного интеллекта и data-driven продуктах. Студенты изучат эволюцию подходов от классического SQL и DWH до Data Lake, Lakehouse и Streamhouse, а также разберут, как строятся масштабируемые аналитические и потоковые платформы в индустрии. Практическая часть курса ориентирована на проектирование end-to-end data-платформ: от источников транзакционных данных и CDC до аналитических витрин и BI. Курс будет полезен студентам, планирующим карьеру в Data Engineering, Machine Learning Engineering и MLOps, а также тем, кто работает с данными в продакшене и хочет понимать, как устроена современная data-инфраструктура.
Цель освоения дисциплины
- • Знать основные подходы к хранению и обработке аналитических данных.
- • Понимать архитектуру и назначение DWH, Data Lake, Lakehouse и Streamhouse.
- • Уметь проектировать слоистые модели данных (raw / ods / dm).
- • Знать принципы работы потоковой обработки данных и CDC.
- • Уметь выбирать архитектурные решения под задачи аналитики и ML.
- • Понимать роль BI-инструментов в data-платформах.
- • Уметь проектировать data-пайплайны для batch- и stream-нагрузок.
- • Ориентироваться в современных индустриальных стеках работы с данными.
Планируемые результаты обучения
- • объясняет различия между DWH, Data Lake, Lakehouse и Streamhouse;
- • проектирует архитектуру аналитической платформы под заданные требования;
- • создает логическую модель данных с выделением слоев raw, ods и dm;
- • использует SQL для аналитических запросов и трансформаций данных;
- • применяет CDC-подходы для обработки изменений в транзакционных базах;
- • разрабатывает пайплайны обработки потоковых данных;
- • обосновывает выбор технологий хранения и обработки данных;
- • интегрирует аналитические витрины с BI-инструментами.
Содержание учебной дисциплины
- Реляционная модель данных, основы SQL, аналитические запросы, агрегации и оконные функции.
- Архитектура хранилищ данных, слоистая модель, схемы «звезда» и «снежинка», ETL/ELT.
- Роль BI в data-платформах, обзор BI-инструментов, принципы построения дашбордов.
- Концепция Data Lake, форматы хранения данных, управление схемами и качеством данных.
- Архитектура Lakehouse, объединение Data Lake и DWH, транзакционность и версионирование данных.
- Потоковая обработка данных, CDC, real-time аналитика и stream-first архитектуры.
- Современные тренды в data-инфраструктуре и архитектурные паттерны.
Элементы контроля
- Домашнее задание 1Домашнее задание посвящено проектированию и реализации архитектуры обработки потоковых данных из транзакционной базы. Студенту необходимо спроектировать слоистую модель данных (raw / ods / dm) и реализовать пайплайн загрузки изменений из транзакционной базы данных с использованием CDC. В рамках задания используется стек Debezium (CDC), PostgreSQL (источник данных) и ClickHouse (аналитическое хранилище). Практический проект, включающий архитектурную схему, описание слоев данных и рабочий прототип пайплайна загрузки данных.
- Домашнее задание 2Домашнее задание посвящено построению аналитической витрины данных для анализа фрода и визуализации результатов в BI-инструменте. Студенту необходимо спроектировать слой cdm, содержащий информацию о транзакциях и типах фрода, затем сформировать слой dm с агрегированными показателями по датам и видам фрода. На основе итоговой витрины требуется построить дашборд в Metabase со стековой столбчатой диаграммой (stacked bar chart), отображающей динамику фрода по датам и типам.
- Домашнее задание 3Домашнее задание посвящено практической работе с Lakehouse-архитектурой. Студенту предлагается выбрать один из готовых пресетов (Apache Hudi / Apache Iceberg с Apache Spark либо Apache Paimon с Apache Flink) и реализовать загрузку данных в таблицы Lakehouse с использованием SQL. В рамках задания необходимо продемонстрировать создание таблиц, загрузку данных и обработку обновлений (insert / update / delete) в соответствии с выбранной технологией.
- ТестТест проводится по материалам курса и направлен на проверку базового понимания ключевых концепций архитектур хранения и обработки данных.
- ЭкзаменЭкзамен направлен на проверку архитектурного понимания принципов построения систем хранения и обработки данных, а также умения анализировать потоковые и аналитические data-платформы.
Промежуточная аттестация
- 2025/2026 2nd moduleЭкзамен состоит из: практической части (ДЗ-3), теории в формате теста (ТЕСТ) и ответов на вопросы преподавателя (ЭКЗ). Итог = Округление (0.2 ЭКЗ + 0.2 ТЕСТ + 0.3 * ДЗ-1 + 0.2 * ДЗ-2 + 0.1 * ДЗ-3), где ДЗ - оценка за домашние задания, ТЕСТ - оценка за тестирование, ЭКЗ - оценка за экзамен. 0.2 ЭКЗ + 0.2 ТЕСТ рассчитывается в рамках экзамена, который также можно сдать на пересдаче.
Список литературы
Рекомендуемая основная литература
- Kleppmann, M. (2017). Designing Data-Intensive Applications : The Big Ideas Behind Reliable, Scalable, and Maintainable Systems. Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1487643
Рекомендуемая дополнительная литература
- Kimball, R., & Ross, M. (2013). The Data Warehouse Toolkit : The Definitive Guide to Dimensional Modeling (Vol. 3rd edition). Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=605991