• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2025/2026

Обработка и анализ больших массивов данных

Статус: Курс обязательный (Искусственный интеллект)
Когда читается: 2-й курс, 1, 2 модуль
Онлайн-часы: 20
Охват аудитории: для своего кампуса
Язык: русский
Контактные часы: 74

Программа дисциплины

Цель освоения дисциплины

Цель освоения дисциплины

  • Формирование у обучающихся глубоких теоретических знаний и устойчивых практических навыков, позволяющих грамотно обрабатывать большие объемы разнородных данных, анализировать их с применением методов машинного обучения и статистического моделирования
  • Создавать эффективные аналитические решения и интерпретировать полученные результаты
Планируемые результаты обучения

Планируемые результаты обучения

  • Научиться сборке и запуску простых программ на Java.
  • Понимание ключевых элементов синтаксиса Java: ключевые слова, идентификаторы, основные типы данных, литералы.
  • Работа с различными типами данных и грамотное приведение их друг к другу.
  • Работать с коллекциями Java, применяя Generic-типы для большей безопасности и удобства.
  • Выполнять сериализацию и десериализацию объектов Java для хранения и передачи данных.
  • Будут сформированы способности анализировать потребности бизнеса в хранении и обработке больших объёмов данных, выбирать подходящие технологии и проектировать эффективные инфраструктуры для управления большими данными.
  • Разбираться в работе алгоритмов MapReduce, различать стадии исполнения задач, определять назначение узлов в Hadoop-кластерах.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы синтаксиса Java (ключевые слова, идентификаторы, типы данных, литералы. Ветвления, циклы и метки. Приведение типов. Inboxing, outboxing. Generics). Массивы и инструменты ООП.
  • Классы (абстрактрые, вложенные, внутренние, анонимные, локальные...). Exceptions. Enums. Java Collections API. Сериализация и десериализация.
  • Зачем нужны большие данные. Распределённые файловые системы. Файловые системы семейства GFS. Их составляющие. Их достоинства, недостатки и сфера применения. Чтение и запись в HDFS.
  • MapReduce, начало. Основная идея. MapReduce на картах. Стадии MapReduce-задачи. Самая известная реализация MapReduce - Hadoop. Роли серверов в кластере Hadoop.
  • MapReduce, продолжение. Дополнительные элементы MapReduce- задачи (Combiner, comparator, partitioner). Оптимизация MapReduce-задач, Distributed cache. Join'ы в MapReduce. Планирование задач в Hadoop.
  • Продвинутый MapReduce. Детали shuffle & sort и реализации на Java. YARN.
  • SQL поверх MapReduce. Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи. Аналитические функции в Hive. Примерные расчёты в Hive. Apache HUE и Oozie.
  • Расширения Hive: Hive streaming, User defined functions. Оптимизация запросов в Hive (партиционирование, бакетирование, работа с несбалансированными данными). Оптимизация Join в Hive. Форматы данных.
  • Spark RDD. Вычисления в оперативной памяти. RDD API: транфсормации, действия. Типы трансформаций. Аккумуляторы, сравнение со счётчиками в Hadoop. Broadcast-переменные, сравнение с Distributed cache в Hadoop. Кеширование. Join'ы в Spark.
  • Spark DataFrames. Spark DF и pandas. Spark SQL и интеграция с Hive. User defined функции.
  • Обработка данных в реальном времени. Stateful и stateless операции. Spark Streaming.
  • Чтение данных из внешних источников. Apache Kafka. Интеграция Kafka со Spark Streaming. Разбор практических кейсов
  • NoSQL и большие данные. Google Bigtable и HBase Архитектура Hbase. Чтение, запись данных в HBase, Cassandra. Схема хранения, компактификация.
  • Apache Filnk
  • Hadoop ecosystem administration
  • Дописывание кр по уважительной причине. Итоговая КР
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание
  • неблокирующий Тесты
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    Расчет указан на странице курса: http://wiki.cs.hse.ru/%D0%9C%D0%98%D0%A1%D0%9E%D0%91%D0%9E%D0%94-2025#.D0.9E.D1.81.D0.BD.D0.BE.D0.B2.D0.BD.D0.B0.D1.8F_.D0.BB.D0.B8.D1.82.D0.B5.D1.80.D0.B0.D1.82.D1.83.D1.80.D0.B0
Список литературы

Список литературы

Рекомендуемая основная литература

  • Hadoop : the definitive guide, White, T., 2012
  • Jules S. Damji, Brooke Wenig, Tathagata Das, & Denny Lee. (2020). Learning Spark. O’Reilly Media.
  • Чак, Л. Hadoop в действии / Л. Чак. — Москва : ДМК Пресс, 2012. — 424 с. — ISBN 978-5-94074-785-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/39997 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Fowler, A. (2015). NoSQL For Dummies. Hoboken, NJ: For Dummies. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=942547
  • Perkins, L., Redmond, E., & Wilson, J. R. (2018). Seven Databases in Seven Weeks : A Guide to Modern Databases and the NoSQL Movement (Vol. Second edition). Raleigh, N. C: Pragmatic Bookshelf. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1806794

Авторы

  • Ахмедова Гюнай Интигам кызы