• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2024/2025

Корпоративные хранилища данных. Методы интеграции данных

Статус: Курс обязательный (Информатика и вычислительная техника)
Направление: 09.03.01. Информатика и вычислительная техника
Когда читается: 3-й курс, 3, 4 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 5

Программа дисциплины

Аннотация

Дисциплина направлена на формирование у обучающихся знаний о системы типа «хранилище данных». Большое время будет уделено задачам моделирования данных. Изучаются классические и современные подходы по решению подобных задач. Рассматриваются вопросы хранения пространственных данных в информационно-аналитических системах.Дисциплина включает углубленное изучение процессов интеграции данных. Отдельно рассматриваются вопрос разработки ETL-процессов как для пакетной обработки данных, так и для потоковой обработки в реальном времени. Рассматриваются вопросы о роли и месте метаданных и процессах обеспечения качества данных в информационно-аналитических системах. Обучаемые также знакомятся с современными инструментами по созданию NoSQL-решений по работе с структурированными и полу структурированными данными.
Цель освоения дисциплины

Цель освоения дисциплины

  • • Целью освоения дисциплины «Корпоративные хранилища данных. Методы интеграции данных» являются приобретение комплекса теоретических знаний и методологических основ в области применения методов работы с корпоративными структурированными данными, а также практических навыков их применения при решении задачи построения информационно- аналитических систем.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знание типов моделей данных и способ их создания. Умение создавать модели данных по методологии Data Vault.
  • Умение моделировать витрины данных.
  • Создание рабочих процессов с помощью AirFlow, включая определение задач, настройку расписания выполнения, определение зависимостей и передачу данных между задачами
  • - Определяет основные концепции ETL-процесса, жизненные цикл и основные этапы ETL-процесса
  • - Выделяет популярные инструменты для реализации ETL-процесса
  • - Понимает, как выбрать подходящий инструмент для конкретных задач ETL-процесса
  • - Применяет один из популярных инструменты для реализации ETL-процесса для практических задач
  • - Описывает оптимальную схему для реализации ETL-процесса
  • - Понимает основы работы с большими данными и применение NoSQL в ETL и DWH
  • - Использует NoSQL базы данных для хранения больших объемов информации.
  • Имеет знание о термине "хранилище данных", отличительных свойствах хранилищ данных, различий в архитектурах хранилищ данных
  • Уметь создавать модели данных по методологии Anchor Modelling
  • Умеет управлять метаданными в среде хранилищ данных
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в хранилища данных
  • Моделирование данных для хранилища данных.
  • Многомерные модели данных. Витрины данных.
  • Процесс интеграции данных. ETL- процессы: методы проектирования и инструменты реализации. Потоковая обработка данных
  • Метаданные и их место в хранилище данных.
  • Процесс обеспечения качества данных. Метрики качества данных.
  • NoSQL-решения
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
    Экзамен по завершению дисциплины
  • неблокирующий Активность модуль 3
  • неблокирующий Активность модуль 4
  • неблокирующий Практическое задание
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 4th module
    0.1 * Активность модуль 3 + 0.1 * Активность модуль 4 + 0.5 * Практическое задание + 0.3 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Doan, A., Halevy, A., & Ives, Z. G. (2012). Principles of Data Integration. [Waltham, MA]: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=465063
  • Fowler, A. (2015). NoSQL For Dummies. Hoboken, NJ: For Dummies. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=942547
  • Inmon, W., & Krishnan, K. (2011). Building the Unstructured Data Warehouse : Architecture, Analysis, and Design (Vol. First edition). Westfield: Technics Publications. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1005034
  • Kimball, R., & Ross, M. (2013). The Data Warehouse Toolkit : The Definitive Guide to Dimensional Modeling (Vol. 3rd edition). Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=605991
  • Linstedt, D., & Olschimke, M. (2015). Building a Scalable Data Warehouse with Data Vault 2.0. Amsterdam: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1065504
  • NoSQL : новая методология разработки нереляционных баз данных, Садаладж, П. Дж., 2016
  • Базы данных. Проектирование моделей данных : учебник для вузов, Гринченко, Н. Н., 2024
  • Харенслак, Б. Apache Airflow и конвейеры обработки данных / Б. Харенслак, Р. Д. де , перевод с английского Д. А. Беликова. — Москва : ДМК Пресс, 2022. — 502 с. — ISBN 978-5-97060-970-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/241133 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Data warehouse : from architecture to implementation, Devlin, B., 1997
  • NoSQL : database for storage and retrieval of data in cloud, , 2017
  • Perkins, L., Redmond, E., & Wilson, J. R. (2018). Seven Databases in Seven Weeks : A Guide to Modern Databases and the NoSQL Movement (Vol. Second edition). Raleigh, N. C: Pragmatic Bookshelf. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1806794

Авторы

  • Лычагин Кирилл Анатольевич
  • Романова Ирина Ивановна