• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2025/2026

Методы и системы обработки больших данных

Когда читается: 2-й курс, 2, 3 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 6

Программа дисциплины

Аннотация

В современной инженерии программного обеспечения есть огромный разрыв между привычными методами разработки, применимыми в рамках малых и средних компаний и проектов, где используются хорошо изученные практики управления и обработки данных в рамках от одного до десятка серверов одной сети, с одной стороны, и методами, которые избыточны на малых объемах данных, но являются неотъемлемой частью программной архитектуры, когда количество серверов начинает изменяться сотнями, а количество обрабатывания данных в день терабайтами. Изучение дисциплины сокращает этот разрыв, предоставляя знания и обучая навыкам обработки данных в условия распределенной системы хранения и обработки информации. В дисциплине показаны основные источники больших данных в реальном мире: данные о людях, организациях и сенсорах. Отдельно выделено умение разбираться в 6 главных критериях оценки больших данных: объеме, скорости изменении, разнообразии, достоверности, связности и значимости. Набор изучаемых методов, программных комплексов и систем обработки больших данных, охватывают все главные этапы жизненного цикла обработки данных: накопление, хранение, отслеживание изменений и анализ.
Цель освоения дисциплины

Цель освоения дисциплины

  • С современными методами и системами обработки больших данных, получить навыки по настройке и эксплуатации готовых программных комплексов. Освоить знания, позволяющие проводить обоснованный выбор программных и аппаратных средств по накоплению и обработке больших данных в целях решения инженерных и бизнес-задач.
  • Программно-аппаратные комплексы интернета вещей, так же как и киберфизические системы оперируют и производят большие по объему потоки данных, которые необходимо уметь корректно и в заданное время обрабатывать и, при необходимости, хранить.
Планируемые результаты обучения

Планируемые результаты обучения

  • Владеть: навыками использования и настройки современных средств сбора больших данных (Elasticsearch, Logstash и Kibana), компетенциями по использованию и разработке под архитектуры распределённой обработки больших данных (MapReduce, Hadoop, Spark).
  • Знать: критерии полезности накопления больших данных, парадигмы к накоплению и обработке больших данных, способы отбора информативных атрибутов.
  • Уметь: выбирать средства и подходы к накоплению больших данных в реляционных и NoSql базах данных, базах данных на основе временных рядов и графовых базах данных, определять оптимальные пути обработки больших данных в рамках заданных временных и финансовых ограничений, минимизировать эффекты накопления ошибок и выявлять ложные выборочные корреляции.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Общие определения и принципы работы с большими данными
  • Архитектура обработки больших Данных MapReduce в рамках платформы Hadoop
  • Главные подходы и архитектуры обработки больших данных
  • Обработка данных в оперативной памяти на примере Apache Spark
  • Хранение редко используемых данных на кластере Hadoop и их анализ
  • Накопление и обработка потоковых данных из веб-систем и систем промышленного интернета вещей
  • Визуализация больших данных
Элементы контроля

Элементы контроля

  • неблокирующий Экзамен
  • неблокирующий Практическое задание
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 3rd module
    0.6 * Практическое задание + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Большие данные : принципы и практика построения масштабируемых систем обработки данных в реальном времени, Марц, Н., 2017
  • Работа с BigData в облаках. Обработка и хранение данных с примерами из Microsoft Azure - 978-5-4461-0578-6 - Сенько А.В. - 2019 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/359208 - 359208 - iBOOKS

Рекомендуемая дополнительная литература

  • Spark для профессионалов: современные паттерны обработки больших данных - 978-5-496-02401-3 - Риза С., Лезерсон У., Оуэн Ш., Уиллс Д. - 2017 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/354385 - 354385 - iBOOKS

Авторы

  • Горбунов Иван Викторович
  • Манохин Александр Иванович