• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2025/2026

Научно-исследовательский семинар «Архитектура Big Data систем»

Статус: Курс по выбору (Программная инженерия)
Когда читается: 4-й курс, 1-3 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3
Контактные часы: 48

Программа дисциплины

Аннотация

Семинар посвящен рассмотрению понятия большие данные, методик и подходов работы с большими данными, обзору различных Big Data технологий и решений. Будут освещены вопросы правильной организации вычислительной инфраструктуры, а также архитектуры типовых аналитических проектов, вопросы развития хранилищ данных, озер и современный сдвиг в Data Lakehouse. В рамках этой концепции будет дан обзор основным форматам открытых таблиц и их архитектуре, различным движкам обработки данных и их особенностям развития. Студенты познакомятся с самыми современными инструментами хранения, обработки, анализа и визуализации больших гетерогенных данных. В рамках групповых проектов предполагается подготовка прототипа типового пайплайна обработки данных, от загрузки с нескольких различных источников до визуализации и построения архитектуры системы, оптимизации производительности.
Цель освоения дисциплины

Цель освоения дисциплины

  • В рамках дисциплины студенты освоят основные архитектурные компоненты построения современных Big Data систем, а также освоят на практике работу различных сервисов хранения, обработки и анализа больших данных. Дополнительно, предполагается использования нейросетей в контексте данных и аналитики.
Планируемые результаты обучения

Планируемые результаты обучения

  • 1. Понимание понятия Big Data и его основы. 2. Знание архитектуры основных Big Data систем и составляющих компонентов. 3. Понимание эволюции хранилищ данных и озер, особенности построения современного Data Lakehouse. 4. Навык практического применения Big Data инструментов для решения практических задач с данными. 5. Навык практического использования технологий Data Lakehouse. 6. Навык использования нейросетей для аналитики данных.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в понятие Big Data.
    Изучено определение Big Data, становление понятия, драйверы развития, основные отличия и границы.
  • Эволюция аналитических платформ
    Изучено отличия микросервисов и монолитов, особенностей и преимуществ каждого типа архитектуры, изучено понимание подхода Data Mesh
  • Хранилища и озера данных. Основные отличия и примеры использования. Apache Hadoop и его архитектура
    Понимание отличий хранилищ и озер данных, определений хранилища и озера, их недостатки. Изучена архитектура Apache Hadoop
  • Оркестрация данных. Использование Apache Airflow
    Понимание архитектуры Airflow. Практические навыки составления пайплайнов по оркестрации различных задач и разворачиванию Airflow
  • Понятие MPP-систем. Изучение архитектуры. Greenplun/ Greengage. Примеры использования и развертывания.
    Понимание MPP-систем. Практические навыки разворачивания Greenplum/ Greengage от Arenadata
  • Основные паттерны построения архитектуры корпоративных аналитических систем
    Понимание основных архитектурных паттернов использования различных аналитических систем в современной арх-ре компании
  • Обработка данных в современном озере данных. Основные движки и их архитектура. Apache Spark, Hive.
    Изучены особенности обработки данных в современном озере данных. Изучены основные движки обработки данных и их архитектура.
  • Переход к Data Lakehouse. Предпосылки перехода и особенности, типовая архитектура. Форматы хранения Iceberg, Hudi и Deltalake
    Понимание понятия Data Lakehouse и предпосылок его появления. Практические навыки работы с форматами открытых таблиц и движками обработки данных.
  • Понятие ассистентов и агентов. Использование ассистентов в данных
    Понимание определения ИИ-ассистентов и их отличие от агентов. Практические навыки написания собственных ИИ-ассистентов.
  • Методы повышения точности ИИ-моделей. Практические рекомендации в части внедрения LLM-моделей для бизнеса
    Понимание основных методов повышения точности ИИ-моделей.
  • Экосистема LLM-решений. Практический опыт использования инструментов и их особенности в типовом проекте
    Понимание экосистемы LLM-решений. Практические навыки разворачивания некоторых решений экосистемы и их использования для решения различных задач бизнеса
Элементы контроля

Элементы контроля

  • неблокирующий ДЗ_1_модуль_1
  • неблокирующий ДЗ_2_модуль_1
  • неблокирующий ДЗ_3_модуль_1
  • неблокирующий ДЗ_1_модуль_2
  • неблокирующий ДЗ_2_модуль_2
  • неблокирующий ГП_1_модуль_2
  • неблокирующий ДЗ_1_модуль_3
  • неблокирующий ДЗ_2_модуль_3
  • неблокирующий ГП_1_модуль_3
  • неблокирующий Экз
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 3rd module
    0.15 * ГП_1_модуль_2 + 0.15 * ГП_1_модуль_3 + 0.05 * ДЗ_1_модуль_1 + 0.05 * ДЗ_1_модуль_2 + 0.05 * ДЗ_1_модуль_3 + 0.05 * ДЗ_2_модуль_1 + 0.05 * ДЗ_2_модуль_2 + 0.1 * ДЗ_2_модуль_3 + 0.05 * ДЗ_3_модуль_1 + 0.3 * Экз
Список литературы

Список литературы

Рекомендуемая основная литература

  • Орешков, В. И. Хранилища данных и OLAP-технологии : учебное пособие / В. И. Орешков. — Рязань : РГРТУ, 2017. — 64 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/167981 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Krish Krishnan. (2019). Building Big Data Applications. [N.p.]: Academic Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1892146

Авторы

  • Буцкая Евгения Александровна
  • Сулейкин Александр Сергеевич