Магистратура
2025/2026




Обработка и анализ больших массивов данных
Статус:
Курс обязательный (Искусственный интеллект)
Где читается:
Факультет компьютерных наук
Когда читается:
2-й курс, 1, 2 модуль
Онлайн-часы:
20
Охват аудитории:
для своего кампуса
Язык:
русский
Контактные часы:
74
Программа дисциплины
Цель освоения дисциплины
- Формирование у обучающихся глубоких теоретических знаний и устойчивых практических навыков, позволяющих грамотно обрабатывать большие объемы разнородных данных, анализировать их с применением методов машинного обучения и статистического моделирования
- Создавать эффективные аналитические решения и интерпретировать полученные результаты
Планируемые результаты обучения
- Научиться сборке и запуску простых программ на Java.
- Понимание ключевых элементов синтаксиса Java: ключевые слова, идентификаторы, основные типы данных, литералы.
- Работа с различными типами данных и грамотное приведение их друг к другу.
- Работать с коллекциями Java, применяя Generic-типы для большей безопасности и удобства.
- Выполнять сериализацию и десериализацию объектов Java для хранения и передачи данных.
- Будут сформированы способности анализировать потребности бизнеса в хранении и обработке больших объёмов данных, выбирать подходящие технологии и проектировать эффективные инфраструктуры для управления большими данными.
- Разбираться в работе алгоритмов MapReduce, различать стадии исполнения задач, определять назначение узлов в Hadoop-кластерах.
Содержание учебной дисциплины
- Основы синтаксиса Java (ключевые слова, идентификаторы, типы данных, литералы. Ветвления, циклы и метки. Приведение типов. Inboxing, outboxing. Generics). Массивы и инструменты ООП.
- Классы (абстрактрые, вложенные, внутренние, анонимные, локальные...). Exceptions. Enums. Java Collections API. Сериализация и десериализация.
- Зачем нужны большие данные. Распределённые файловые системы. Файловые системы семейства GFS. Их составляющие. Их достоинства, недостатки и сфера применения. Чтение и запись в HDFS.
- MapReduce, начало. Основная идея. MapReduce на картах. Стадии MapReduce-задачи. Самая известная реализация MapReduce - Hadoop. Роли серверов в кластере Hadoop.
- MapReduce, продолжение. Дополнительные элементы MapReduce- задачи (Combiner, comparator, partitioner). Оптимизация MapReduce-задач, Distributed cache. Join'ы в MapReduce. Планирование задач в Hadoop.
- Продвинутый MapReduce. Детали shuffle & sort и реализации на Java. YARN.
- SQL поверх MapReduce. Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи. Аналитические функции в Hive. Примерные расчёты в Hive. Apache HUE и Oozie.
- Расширения Hive: Hive streaming, User defined functions. Оптимизация запросов в Hive (партиционирование, бакетирование, работа с несбалансированными данными). Оптимизация Join в Hive. Форматы данных.
- Spark RDD. Вычисления в оперативной памяти. RDD API: транфсормации, действия. Типы трансформаций. Аккумуляторы, сравнение со счётчиками в Hadoop. Broadcast-переменные, сравнение с Distributed cache в Hadoop. Кеширование. Join'ы в Spark.
- Spark DataFrames. Spark DF и pandas. Spark SQL и интеграция с Hive. User defined функции.
- Обработка данных в реальном времени. Stateful и stateless операции. Spark Streaming.
- Чтение данных из внешних источников. Apache Kafka. Интеграция Kafka со Spark Streaming. Разбор практических кейсов
- NoSQL и большие данные. Google Bigtable и HBase Архитектура Hbase. Чтение, запись данных в HBase, Cassandra. Схема хранения, компактификация.
- Apache Filnk
- Hadoop ecosystem administration
- Дописывание кр по уважительной причине. Итоговая КР
Промежуточная аттестация
- 2025/2026 2nd moduleРасчет указан на странице курса: http://wiki.cs.hse.ru/%D0%9C%D0%98%D0%A1%D0%9E%D0%91%D0%9E%D0%94-2025#.D0.9E.D1.81.D0.BD.D0.BE.D0.B2.D0.BD.D0.B0.D1.8F_.D0.BB.D0.B8.D1.82.D0.B5.D1.80.D0.B0.D1.82.D1.83.D1.80.D0.B0
Список литературы
Рекомендуемая основная литература
- Hadoop : the definitive guide, White, T., 2012
- Jules S. Damji, Brooke Wenig, Tathagata Das, & Denny Lee. (2020). Learning Spark. O’Reilly Media.
- Чак, Л. Hadoop в действии / Л. Чак. — Москва : ДМК Пресс, 2012. — 424 с. — ISBN 978-5-94074-785-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/39997 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Fowler, A. (2015). NoSQL For Dummies. Hoboken, NJ: For Dummies. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=942547
- Perkins, L., Redmond, E., & Wilson, J. R. (2018). Seven Databases in Seven Weeks : A Guide to Modern Databases and the NoSQL Movement (Vol. Second edition). Raleigh, N. C: Pragmatic Bookshelf. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1806794