Обработка и анализ больших массивов данных

Магистратура 2025/2026

Лучший по критерию «Новизна полученных знаний»

Статус: Курс обязательный (Искусственный интеллект)

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 2-й курс, 1, 2 модуль

Онлайн-часы: 20

Охват аудитории: для своего кампуса

Преподаватели: Ивченко Олег Николаевич

Язык: русский

Кредиты: 6

Контактные часы: 74

Дополнительные материалы в LMS Задать вопрос

Аннотация

Цель освоения дисциплины

Формирование у обучающихся глубоких теоретических знаний и устойчивых практических навыков, позволяющих грамотно обрабатывать большие объемы разнородных данных, анализировать их с применением методов машинного обучения и статистического моделирования
Создавать эффективные аналитические решения и интерпретировать полученные результаты

Планируемые результаты обучения

Научиться сборке и запуску простых программ на Java.
Понимание ключевых элементов синтаксиса Java: ключевые слова, идентификаторы, основные типы данных, литералы.
Работа с различными типами данных и грамотное приведение их друг к другу.
Работать с коллекциями Java, применяя Generic-типы для большей безопасности и удобства.
Выполнять сериализацию и десериализацию объектов Java для хранения и передачи данных.
Будут сформированы способности анализировать потребности бизнеса в хранении и обработке больших объёмов данных, выбирать подходящие технологии и проектировать эффективные инфраструктуры для управления большими данными.
Разбираться в работе алгоритмов MapReduce, различать стадии исполнения задач, определять назначение узлов в Hadoop-кластерах.

Содержание учебной дисциплины

Основы синтаксиса Java (ключевые слова, идентификаторы, типы данных, литералы. Ветвления, циклы и метки. Приведение типов. Inboxing, outboxing. Generics). Массивы и инструменты ООП.
Классы (абстрактрые, вложенные, внутренние, анонимные, локальные...). Exceptions. Enums. Java Collections API. Сериализация и десериализация.
Зачем нужны большие данные. Распределённые файловые системы. Файловые системы семейства GFS. Их составляющие. Их достоинства, недостатки и сфера применения. Чтение и запись в HDFS.
MapReduce, начало. Основная идея. MapReduce на картах. Стадии MapReduce-задачи. Самая известная реализация MapReduce - Hadoop. Роли серверов в кластере Hadoop.
MapReduce, продолжение. Дополнительные элементы MapReduce- задачи (Combiner, comparator, partitioner). Оптимизация MapReduce-задач, Distributed cache. Join'ы в MapReduce. Планирование задач в Hadoop.
Продвинутый MapReduce. Детали shuffle & sort и реализации на Java. YARN.
SQL поверх MapReduce. Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи. Аналитические функции в Hive. Примерные расчёты в Hive. Apache HUE и Oozie.
Расширения Hive: Hive streaming, User defined functions. Оптимизация запросов в Hive (партиционирование, бакетирование, работа с несбалансированными данными). Оптимизация Join в Hive. Форматы данных.
Spark RDD. Вычисления в оперативной памяти. RDD API: транфсормации, действия. Типы трансформаций. Аккумуляторы, сравнение со счётчиками в Hadoop. Broadcast-переменные, сравнение с Distributed cache в Hadoop. Кеширование. Join'ы в Spark.
Spark DataFrames. Spark DF и pandas. Spark SQL и интеграция с Hive. User defined функции.
Обработка данных в реальном времени. Stateful и stateless операции. Spark Streaming.
Чтение данных из внешних источников. Apache Kafka. Интеграция Kafka со Spark Streaming. Разбор практических кейсов
NoSQL и большие данные. Google Bigtable и HBase Архитектура Hbase. Чтение, запись данных в HBase, Cassandra. Схема хранения, компактификация.
Apache Filnk
Hadoop ecosystem administration
Дописывание кр по уважительной причине. Итоговая КР

Элементы контроля

Домашнее задание
Тесты

Промежуточная аттестация

2025/2026 2nd module
Расчет указан на странице курса: http://wiki.cs.hse.ru/%D0%9C%D0%98%D0%A1%D0%9E%D0%91%D0%9E%D0%94-2025#.D0.9E.D1.81.D0.BD.D0.BE.D0.B2.D0.BD.D0.B0.D1.8F_.D0.BB.D0.B8.D1.82.D0.B5.D1.80.D0.B0.D1.82.D1.83.D1.80.D0.B0

Список литературы

Авторы

Ахмедова Гюнай Интигам кызы

Программа дисциплины