Бакалавриат
2025/2026





Научно-исследовательский семинар «Архитектура Big Data систем»
Статус:
Курс по выбору (Программная инженерия)
Кто читает:
Департамент программной инженерии
Где читается:
Факультет компьютерных наук
Когда читается:
4-й курс, 1-3 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Контактные часы:
48
Программа дисциплины
Аннотация
Семинар посвящен рассмотрению понятия большие данные, методик и подходов работы с большими данными, обзору различных Big Data технологий и решений. Будут освещены вопросы правильной организации вычислительной инфраструктуры, а также архитектуры типовых аналитических проектов, вопросы развития хранилищ данных, озер и современный сдвиг в Data Lakehouse. В рамках этой концепции будет дан обзор основным форматам открытых таблиц и их архитектуре, различным движкам обработки данных и их особенностям развития. Студенты познакомятся с самыми современными инструментами хранения, обработки, анализа и визуализации больших гетерогенных данных. В рамках групповых проектов предполагается подготовка прототипа типового пайплайна обработки данных, от загрузки с нескольких различных источников до визуализации и построения архитектуры системы, оптимизации производительности.
Цель освоения дисциплины
- В рамках дисциплины студенты освоят основные архитектурные компоненты построения современных Big Data систем, а также освоят на практике работу различных сервисов хранения, обработки и анализа больших данных. Дополнительно, предполагается использования нейросетей в контексте данных и аналитики.
Планируемые результаты обучения
- 1. Понимание понятия Big Data и его основы. 2. Знание архитектуры основных Big Data систем и составляющих компонентов. 3. Понимание эволюции хранилищ данных и озер, особенности построения современного Data Lakehouse. 4. Навык практического применения Big Data инструментов для решения практических задач с данными. 5. Навык практического использования технологий Data Lakehouse. 6. Навык использования нейросетей для аналитики данных.
Содержание учебной дисциплины
- Введение в понятие Big Data.Изучено определение Big Data, становление понятия, драйверы развития, основные отличия и границы.
- Эволюция аналитических платформИзучено отличия микросервисов и монолитов, особенностей и преимуществ каждого типа архитектуры, изучено понимание подхода Data Mesh
- Хранилища и озера данных. Основные отличия и примеры использования. Apache Hadoop и его архитектураПонимание отличий хранилищ и озер данных, определений хранилища и озера, их недостатки. Изучена архитектура Apache Hadoop
- Оркестрация данных. Использование Apache AirflowПонимание архитектуры Airflow. Практические навыки составления пайплайнов по оркестрации различных задач и разворачиванию Airflow
- Понятие MPP-систем. Изучение архитектуры. Greenplun/ Greengage. Примеры использования и развертывания.Понимание MPP-систем. Практические навыки разворачивания Greenplum/ Greengage от Arenadata
- Основные паттерны построения архитектуры корпоративных аналитических системПонимание основных архитектурных паттернов использования различных аналитических систем в современной арх-ре компании
- Обработка данных в современном озере данных. Основные движки и их архитектура. Apache Spark, Hive.Изучены особенности обработки данных в современном озере данных. Изучены основные движки обработки данных и их архитектура.
- Переход к Data Lakehouse. Предпосылки перехода и особенности, типовая архитектура. Форматы хранения Iceberg, Hudi и DeltalakeПонимание понятия Data Lakehouse и предпосылок его появления. Практические навыки работы с форматами открытых таблиц и движками обработки данных.
- Понятие ассистентов и агентов. Использование ассистентов в данныхПонимание определения ИИ-ассистентов и их отличие от агентов. Практические навыки написания собственных ИИ-ассистентов.
- Методы повышения точности ИИ-моделей. Практические рекомендации в части внедрения LLM-моделей для бизнесаПонимание основных методов повышения точности ИИ-моделей.
- Экосистема LLM-решений. Практический опыт использования инструментов и их особенности в типовом проектеПонимание экосистемы LLM-решений. Практические навыки разворачивания некоторых решений экосистемы и их использования для решения различных задач бизнеса
Элементы контроля
- ДЗ_1_модуль_1
- ДЗ_2_модуль_1
- ДЗ_3_модуль_1
- ДЗ_1_модуль_2
- ДЗ_2_модуль_2
- ГП_1_модуль_2
- ДЗ_1_модуль_3
- ДЗ_2_модуль_3
- ГП_1_модуль_3
- Экз
Промежуточная аттестация
- 2025/2026 3rd module0.15 * ГП_1_модуль_2 + 0.15 * ГП_1_модуль_3 + 0.05 * ДЗ_1_модуль_1 + 0.05 * ДЗ_1_модуль_2 + 0.05 * ДЗ_1_модуль_3 + 0.05 * ДЗ_2_модуль_1 + 0.05 * ДЗ_2_модуль_2 + 0.1 * ДЗ_2_модуль_3 + 0.05 * ДЗ_3_модуль_1 + 0.3 * Экз
Список литературы
Рекомендуемая основная литература
- Орешков, В. И. Хранилища данных и OLAP-технологии : учебное пособие / В. И. Орешков. — Рязань : РГРТУ, 2017. — 64 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/167981 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Krish Krishnan. (2019). Building Big Data Applications. [N.p.]: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1892146