• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2025/2026

Технологии обработки данных

Статус: Курс обязательный (Технологии анализа данных в бизнесе)
Когда читается: 1-й курс, 4 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 4
Контактные часы: 48

Программа дисциплины

Аннотация

Курс формирует практические компетенции в области инженерии данных на Python: от работы с базовыми структурами (NumPy, pandas) и форматами хранения (CSV, Parquet, Excel, JSON, XML) до разведочного анализа и базовой обработки текстовых данных . Во второй части курса рассматриваются инженерные аспекты построения надёжных конвейеров обработки данных: отладка, профилирование и оптимизация, параллельная обработка, масштабирование на объёмы данных превышающие оперативную память с помощью Dask, а также современные практики ИИ-ассистированной разработки.
Цель освоения дисциплины

Цель освоения дисциплины

  • Сформировать практические навыки построения надёжных и эффективных конвейеров обработки данных на Python - от чтения разнородных источников и очистки данных до масштабирования вычислений и встраивания ИИ-инструментов в рабочий процесс инженера данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • - Создавать и индексировать многомерные массивы ndarray с использованием срезов, fancy indexing и булевых масок. - Применять broadcasting для векторизованных операций над массивами различных форм без явных циклов. - Выбирать между view и копией массива, обосновывая решение с точки зрения потребления памяти.
  • - Выполнять индексацию и фильтрацию DataFrame с использованием loc, iloc и булевых условий. - Объединять таблицы операциями merge/join, выбирая тип соединения в соответствии с задачей. - Агрегировать данные через groupby в парадигме split–apply–combine, включая применение пользовательских функций.
  • - Различать текстовые и бинарные форматы хранения данных, аргументируя выбор формата под конкретную задачу. - Читать и записывать данные в форматах JSON и XML средствами Python. - Объяснять риски и ограничения pickle, связанные с безопасностью и переносимостью.
  • - Читать и записывать CSV-файлы, корректно обрабатывая нетипичные разделители, кодировки и типы столбцов. - Обосновывать преимущества колоночного формата Parquet перед CSV для аналитических нагрузок. - Автоматизировать чтение и запись данных в Excel-книги через XLWings, встраивая Python-обработку в Excel-окружение.
  • - Строить графики средствами matplotlib (Axes API), управляя осями, подписями и компоновкой. - Применять seaborn для визуализации распределений, корреляций и попарных зависимостей признаков. - Проводить EDA по стандартному чеклисту: пропуски, выбросы, распределения, корреляции
  • - Применять встроенные строковые методы и str-аксессор pandas для очистки и нормализации текстовых полей. - Составлять регулярные выражения для извлечения, валидации и замены подстрок с использованием модуля re. - Отлаживать регулярные выражения, объясняя работу квантификаторов, групп и lookahead-конструкций.
  • - Выявлять узкие места производительности с помощью timeit и cProfile, интерпретируя профиль вызовов. - Применять векторизацию и JIT-компиляцию Numba для ускорения числовых вычислений, опираясь на данные профилировщика.
  • - Объяснять природу GIL и обосновывать выбор между потоками и процессами для CPU-bound и I/O-bound задач. - Реализовывать параллельный map над батчами данных через ProcessPoolExecutor и multiprocessing.Pool. - Идентифицировать типичные ошибки параллельных пайплайнов: race conditions, избыточный overhead на сериализацию.
  • - Строить ленивые вычислительные графы средствами dask.dataframe и запускать их через compute(). - Применять dask.dataframe для обработки табличных данных, не помещающихся в оперативную память. - Декомпозировать задачу обработки данных в цепочку map–filter–reduce операций, обосновывая такой выбор.
  • - Формулировать эффективные промпты для кодогенерации и рефакторинга функций трансформации данных. - Верифицировать и критически оценивать код, сгенерированный LLM, выявляя потенциальные дефекты логики. - Встраивать ИИ-инструменты (Copilot, Claude Code и др.) в рабочий цикл разработки, сохраняя ответственность за качество кода.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Библиотека NumPy
  • Библиотека Pandas
  • Сериализация и форматы данных: текстовые и бинарные файлы
  • Табличные источники данных: CSV, Parquet, Excel
  • Визуализация и разведочный анализ данных
  • Работа со строками, регулярные выражения
  • Отладка, профилирование и оптимизация конвейера обработки данны
  • Параллельная обработка данных
  • Введение в Dask и парадигму map-filter-reduce для больших массивов данных
  • ИИ-ассистирование в data engineering
Элементы контроля

Элементы контроля

  • неблокирующий Посещение
  • неблокирующий Контрольная работа
  • неблокирующий Лабораторные работы
  • блокирующий Экзамен (тест)
    Тест, как с закрытыми так и с открытыми вопросами
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 4th module
    0.1 * Посещение + 0.25 * Контрольная работа + 0.25 * Лабораторные работы + 0.4 * Экзамен (тест)
Список литературы

Список литературы

Рекомендуемая основная литература

  • Big data. Вся технология в одной книге, Вайгенд, А., 2021
  • Data Science в действии : пять реальных проектов Python, Апельцин, Л., 2023
  • Pandas for everyone : Python data analysis, Chen, D. Y., 2023
  • Python for data analysis : data wrangling with pandas, numPy, and IPhython, Mckinney, W., 2017
  • Python для data science, Васильев, Ю., 2023
  • Python для финансистов : базовые концепции, Хилпиш, И., 2023
  • Python и анализ данных : первичная обработка данных с применением pandas, NumPy и Jupiter, Маккинни, У., 2023
  • XML. Базовый курс, Хантер, Д., 2009
  • Внутри Cpython : гид по интерпретатору Python, Шоу, Э., 2023
  • Жорняк, А. Г. Обработка больших массивов данных и визуализация результатов научных исследований с использованием библиотек NumPy и Matplotlib языка программирования Python : учебное пособие / А. Г. Жорняк, Т. А. Морозова. — Москва : МАИ, 2025. — 92 с. — ISBN 978-5-00246-342-8. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/506712 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Искусственный интеллект. Введение в многоагентные системы : учебник для вузов, Бессмертный, И. А., 2024
  • Коротеев, М. В., Основы машинного обучения на Python : учебник / М. В. Коротеев. — Москва : КноРус, 2025. — 431 с. — ISBN 978-5-406-14728-3. — URL: https://book.ru/book/957785 (дата обращения: 09.12.2025). — Текст : электронный.
  • Криволапов С.Я. - Анализ данных. Методы теории вероятностей и математической статистики на языке Python - 978-5-16-018616-0 - ИНФРА-М - 2025 - https://znanium.ru/catalog/product/2034420 - 2034420 - ZNANIUM
  • Ланских, Ю. В. Введение в большие данные : учебное пособие / Ю. В. Ланских, В. Г. Ланских, К. В. Родионов. — Киров : ВятГУ, 2023. — 172 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/408566 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Никитина, Т. П. Программирование. Основы Python для инженеров : учебное пособие для вузов / Т. П. Никитина, Л. В. Королев. — 3-е изд., стер. — Санкт-Петербург : Лань, 2026. — 156 с. — ISBN 978-5-507-51280-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/509001 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
  • Общий искусственный интеллект, Тогелиус, Ю., 2025
  • Основы Data Science и Big Data. Python и наука о данных : пер. с англ., Силен, Д., Мейсман, А., 2018
  • Регулярные выражения, Фридл, Дж., 2008
  • Рецепты Python : коллекция лучших техник программирования, Юн Цуй, 2024
  • Сверхбыстрый Python : эффективные техники для работы с большими наборами данных, Антао, Т., 2023
  • Теоретический минимум по Big Data : все, что нужно знать о больших данных, Ын, А., 2019

Рекомендуемая дополнительная литература

  • Дадян Э.Г. - Данные: хранение и обработка - 978-5-16-021135-0 - ИНФРА-М - 2026 - https://znanium.ru/catalog/product/2214875 - 2214875 - ZNANIUM

Авторы

  • Макрушин Сергей Вячеславович