Магистратура
2025/2026





Семинар наставника
Статус:
Курс обязательный (Инженерия данных)
Где читается:
Факультет компьютерных наук
Когда читается:
1-й курс, 1-4 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Касьяненко Дарья Алексеевна
Язык:
русский
Кредиты:
9
Контактные часы:
72
Программа дисциплины
Аннотация
Данный курс представляет собой ключевую часть образовательного процесса магистратуры для будущих дата-инженеров. В ходе обучения студенты будут вовлечены в обмен опытом с профессионалами в области дата-инженерии, которые выступят в роли наставников. В рамках семинара студенты будут работать над реальными проектами, применяя свои навыки в практических задачах под руководством наставников. Семинар также будет посвящен развитию мягких навыков, таких как коммуникация, руководство, аналитическое мышление и принятие решений, что является важным аспектом успешной карьеры в данной области.
Цель освоения дисциплины
- Узнать о передовых технологиях и лучших практиках в индустрии
- Понимать, как инструменты инженерии данных применяются в российских компаниях
Планируемые результаты обучения
- Определять значение и роль данных в современном бизнесе и технологиях, тренды развития профессии, профессиональные требования, предъявляемые рынком
- Оценивать личный уровень сформированности профессиональных компетенцией
- Работать с основными командами Linux: навигация по файловой системе, управление файлами и каталогами, работа с процессами.
- Управлять правами доступа к файлам и каталогам, системами пользователей и групп.
- Устанавливать и управлять программами: менеджеры пакетов (apt, yum), установка и удаление программного обеспечения.
- Подготавливать конфигурационные файлы для формирования системы.
- Выполнять основные команды Git: инициализация репозитория, добавление и коммит изменений, просмотр истории.
- Работать с удаленными репозиториями: настройка и использование GitHub, GitLab.
- Создавать свой репозиторий, простые проекты в Git, выполнять операции с ветками.
- Выполнение основных команд и сценариев: работа с файлами и каталогами, перенаправление ввода/вывода, использование пайпов.
- Написание и выполнение скриптов, использование переменных и аргументов командной строки.
- Автоматизация рутинных задач: создание скриптов для автоматизации процессов сбора и обработки данных.
- Установка и настройка серверов: базовая конфигурация, установка операционной системы и необходимых сервисов.
- Управление ресурсами сервера: мониторинг и оптимизация производительности.
- Работа удаленно с серверами, передает файлы, выполнение настройки сетевого взаимодействия с помощью SCP и SFTP, обеспечение удаленного выполнения команд.
- Владение навыками развертывания своей экосистемы на своем ПК.
- Настройка и запуск контейнеров для различных приложений, используемых в процессе обработки данных.
- Написание и оптимизация Dockerfile для автоматической сборки образов, содержащих необходимые зависимости и настройки.
- Настройка сетевых взаимодействий между контейнерами и внешними сервисами.
- Выполнять настройку и конфигурацию систем мониторинга: установка, настройка агентов и интеграция с источниками данных.
- Выполнять анализ и визуализация данных мониторинга: создание дашбордов, настройка алертов.
- Работать и настраивать Prometheus, Grafana, ELK stack на углубленном уровне
- Реализовать основные возможности PyTest: написание тестов, использование фикстур и параметризация тестов.
- Выполнять организацию тестов: структура тестового проекта, группировка и маркировка тестов.
- Выполнять запуск и анализ результатов тестирования: использование различных опций командной строки, интерпретация результатов.
- Реализует основы работы с RESTful API: принципы REST, основные методы HTTP-запросов.
- Выполняет интеграцию с внешними API: аутентификация, обработка запросов и ответов.
- Владеет навыками взаимодействия с API сервисами и создает свои API сервисы.
- Настраивать пайплайны для автоматической сборки и тестирования кода при каждом изменении в репозитории.
- Настраивать мониторинг для отслеживания выполнения пайплайнов CI/CD и автоматического уведомления о сбоях.
- Использовать системы контроля версий для отслеживания изменений в коде и конфигурациях дата-приложений.
- Создавать модели машинного обучения, используя данные из блокчейна, для прогнозирования трендов и определения аномалий.
- Навыки построения, тренировки и оптимизации моделей машинного обучения.
- Навыки разработки и развертывания API, что позволяет интегрировать модели в приложения и предоставлять доступ к предсказаниям.
- Навыки совместной работы в командах.
- Навыки эффективного планирования времени и ресурсов.
- Повышение уровня организованности и способности к быстрой адаптации в условиях ограниченных временных рамок.
- Навыки критического мышления, способность находить креативные решения и адаптироваться к возникающим проблемам в процессе работы.
- Составлять эффективное резюме.
- Проходить технические собеседования и выполнять тестовые задания.
- Составлять портфолио дата-инженера в Git.
- Создавать, настраивать и запускать DAG в Airflow
- Мониторить и управлять выполнением задач через Web UI
- Владеть навыками интеграция Airflow с базами данных, API и облачными сервисами
- Настраивать продюсеров, брокеров и потребителей в Kafka.
- Анализировать и обрабатывать потоки данных в реальном времени.
- Владеть навыками интеграция Kafka с другими системами (базы данных, API, микросервисы).
- Владеть навыками мониторинга и оптимизация работы Kafka-кластера.
- Разворачивать и настраивать кластеры Data Proc и Airflow в Yandex Cloud
- Работать с инструментами для анализа и обработки больших данных в облаке.
- Владеть навыками использования Yandex Cloud для масштабируемых вычислений и анализа данных.
- Организовать ETL-пайплайн с Yandex Data Proc, Object Storage и Managed Airflow.
- Разворачивать и настраивать стриминговую обработку данных с Kafka и Spark Streaming.
- Работать с ClickHouse для создания аналитических витрин данных.
- Владеть навыками оркестрации и автоматизации ETL-процессов с Managed Airflow
Содержание учебной дисциплины
- Введение в Data Engineering
- Основы работы с серверными операционными средами
- Управление изменениями и командная работа в проектах
- Автоматизация типовых задач и сценариев сбора и обработки данных
- Работа с серверами и протокол удаленного управления SSH
- Работа с Docker
- Работа с системами мониторинга данных
- Использование PyTest в инженерии данных
- Использование API в инженерии данных
- CI/CD: практика и кейсы
- Использование блокчейн технологий и криптовалют в контексте анализа данных
- Практика работы с Airflow
- Практика работы с Kafka
- Работа с Yandex CLOUD
- Работа с Spark Streaming
- Машинное обучение: кейсы и аналитика
- Развитие карьеры инженера данных
- Мини-хакатон
Элементы контроля
- Задания с проверкой преподавателем
- Задания с самопроверкой по чек-листу
- Портфолио
- Мини-хакатон
Промежуточная аттестация
- 2025/2026 2nd module-
- 2025/2026 4th moduleФормула оценки за 1 курс 4 модуль (зачет): Задания с проверкой преподавателем * 0.6 + Задания с самопроверкой по чек-листу * 0.3 + Портфолио * 0.1 = 1 Итоговая формула оценки за дисциплину - 2 курс 3 модуль (экзамен): 0,5 * Сумма баллов, полученных на 1 курсе в 4 модуле + 0,5 * Мини-хакатон =1
- 2026/2027 2nd module-
- 2026/2027 3rd moduleФормула оценки за 1 курс 4 модуль (зачет): Задания с проверкой преподавателем * 0.6 + Задания с самопроверкой по чек-листу * 0.3 + Портфолио * 0.1 = 1 Итоговая формула оценки за дисциплину - 2 курс 3 модуль (экзамен): 0,5 * Сумма баллов, полученных на 1 курсе в 4 модуле + 0,5 * Мини-хакатон =1
Список литературы
Рекомендуемая основная литература
- Информационные технологии : учебник для вузов / В. В. Трофимов, О. П. Ильина, В. И. Кияев, Е. В. Трофимова ; под редакцией В. В. Трофимова. — Москва : Издательство Юрайт, 2025. — 546 с. — (Высшее образование). — ISBN 978-5-534-18340-5. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/568880 (дата обращения: 04.07.2025).
- Сейерс, Э. Х. Docker на практике / Э. Х. Сейерс, А. Милл , перевод с английского Д. А. Беликов. — Москва : ДМК Пресс, 2020. — 516 с. — ISBN 978-5-97060-772-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131719 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Флах, П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных / П. Флах. — Москва : ДМК Пресс, 2015. — 400 с. — ISBN 978-5-97060-273-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/69955 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Харенслак, Б. Apache Airflow и конвейеры обработки данных / Б. Харенслак, Р. Д. де , перевод с английского Д. А. Беликова. — Москва : ДМК Пресс, 2022. — 502 с. — ISBN 978-5-97060-970-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/241133 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Батуро А.Н., Бойко Г.М. - Информационные технологии - Сибирская пожарно-спасательная академия - 2024 - https://znanium.ru/catalog/product/2161770 - 2161770 - ZNANIUM
- Заяц, А. М. Администрирование информационных систем : учебное пособие / А. М. Заяц. — Санкт-Петербург : СПбГЛТУ, 2011. — 140 с. — ISBN 978-5-9239-0405-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/45448 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Криптографические основы блокчейн-технологий / Е. А. Ищукова, С. П. Панасенко, К. С. Романенко, В. Д. Салманов. — Москва : ДМК Пресс, 2022. — 300 с. — ISBN 978-5-97060-865-4. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/314915 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.