Бакалавриат
2025/2026





Технологии обработки данных
Статус:
Курс обязательный (Технологии анализа данных в бизнесе)
Кто читает:
Департамент бизнес-информатики
Где читается:
Высшая школа бизнеса
Когда читается:
1-й курс, 4 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
4
Контактные часы:
48
Программа дисциплины
Аннотация
Курс формирует практические компетенции в области инженерии данных на Python: от работы с базовыми структурами (NumPy, pandas) и форматами хранения (CSV, Parquet, Excel, JSON, XML) до разведочного анализа и базовой обработки текстовых данных . Во второй части курса рассматриваются инженерные аспекты построения надёжных конвейеров обработки данных: отладка, профилирование и оптимизация, параллельная обработка, масштабирование на объёмы данных превышающие оперативную память с помощью Dask, а также современные практики ИИ-ассистированной разработки.
Цель освоения дисциплины
- Сформировать практические навыки построения надёжных и эффективных конвейеров обработки данных на Python - от чтения разнородных источников и очистки данных до масштабирования вычислений и встраивания ИИ-инструментов в рабочий процесс инженера данных.
Планируемые результаты обучения
- - Создавать и индексировать многомерные массивы ndarray с использованием срезов, fancy indexing и булевых масок. - Применять broadcasting для векторизованных операций над массивами различных форм без явных циклов. - Выбирать между view и копией массива, обосновывая решение с точки зрения потребления памяти.
- - Выполнять индексацию и фильтрацию DataFrame с использованием loc, iloc и булевых условий. - Объединять таблицы операциями merge/join, выбирая тип соединения в соответствии с задачей. - Агрегировать данные через groupby в парадигме split–apply–combine, включая применение пользовательских функций.
- - Различать текстовые и бинарные форматы хранения данных, аргументируя выбор формата под конкретную задачу. - Читать и записывать данные в форматах JSON и XML средствами Python. - Объяснять риски и ограничения pickle, связанные с безопасностью и переносимостью.
- - Читать и записывать CSV-файлы, корректно обрабатывая нетипичные разделители, кодировки и типы столбцов. - Обосновывать преимущества колоночного формата Parquet перед CSV для аналитических нагрузок. - Автоматизировать чтение и запись данных в Excel-книги через XLWings, встраивая Python-обработку в Excel-окружение.
- - Строить графики средствами matplotlib (Axes API), управляя осями, подписями и компоновкой. - Применять seaborn для визуализации распределений, корреляций и попарных зависимостей признаков. - Проводить EDA по стандартному чеклисту: пропуски, выбросы, распределения, корреляции
- - Применять встроенные строковые методы и str-аксессор pandas для очистки и нормализации текстовых полей. - Составлять регулярные выражения для извлечения, валидации и замены подстрок с использованием модуля re. - Отлаживать регулярные выражения, объясняя работу квантификаторов, групп и lookahead-конструкций.
- - Выявлять узкие места производительности с помощью timeit и cProfile, интерпретируя профиль вызовов. - Применять векторизацию и JIT-компиляцию Numba для ускорения числовых вычислений, опираясь на данные профилировщика.
- - Объяснять природу GIL и обосновывать выбор между потоками и процессами для CPU-bound и I/O-bound задач. - Реализовывать параллельный map над батчами данных через ProcessPoolExecutor и multiprocessing.Pool. - Идентифицировать типичные ошибки параллельных пайплайнов: race conditions, избыточный overhead на сериализацию.
- - Строить ленивые вычислительные графы средствами dask.dataframe и запускать их через compute(). - Применять dask.dataframe для обработки табличных данных, не помещающихся в оперативную память. - Декомпозировать задачу обработки данных в цепочку map–filter–reduce операций, обосновывая такой выбор.
- - Формулировать эффективные промпты для кодогенерации и рефакторинга функций трансформации данных. - Верифицировать и критически оценивать код, сгенерированный LLM, выявляя потенциальные дефекты логики. - Встраивать ИИ-инструменты (Copilot, Claude Code и др.) в рабочий цикл разработки, сохраняя ответственность за качество кода.
Содержание учебной дисциплины
- Библиотека NumPy
- Библиотека Pandas
- Сериализация и форматы данных: текстовые и бинарные файлы
- Табличные источники данных: CSV, Parquet, Excel
- Визуализация и разведочный анализ данных
- Работа со строками, регулярные выражения
- Отладка, профилирование и оптимизация конвейера обработки данны
- Параллельная обработка данных
- Введение в Dask и парадигму map-filter-reduce для больших массивов данных
- ИИ-ассистирование в data engineering
Элементы контроля
- Посещение
- Контрольная работа
- Лабораторные работы
- Экзамен (тест)Тест, как с закрытыми так и с открытыми вопросами
Промежуточная аттестация
- 2025/2026 4th module0.1 * Посещение + 0.25 * Контрольная работа + 0.25 * Лабораторные работы + 0.4 * Экзамен (тест)
Список литературы
Рекомендуемая основная литература
- Big data. Вся технология в одной книге, Вайгенд, А., 2021
- Data Science в действии : пять реальных проектов Python, Апельцин, Л., 2023
- Pandas for everyone : Python data analysis, Chen, D. Y., 2023
- Python for data analysis : data wrangling with pandas, numPy, and IPhython, Mckinney, W., 2017
- Python для data science, Васильев, Ю., 2023
- Python для финансистов : базовые концепции, Хилпиш, И., 2023
- Python и анализ данных : первичная обработка данных с применением pandas, NumPy и Jupiter, Маккинни, У., 2023
- XML. Базовый курс, Хантер, Д., 2009
- Внутри Cpython : гид по интерпретатору Python, Шоу, Э., 2023
- Жорняк, А. Г. Обработка больших массивов данных и визуализация результатов научных исследований с использованием библиотек NumPy и Matplotlib языка программирования Python : учебное пособие / А. Г. Жорняк, Т. А. Морозова. — Москва : МАИ, 2025. — 92 с. — ISBN 978-5-00246-342-8. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/506712 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Искусственный интеллект. Введение в многоагентные системы : учебник для вузов, Бессмертный, И. А., 2024
- Коротеев, М. В., Основы машинного обучения на Python : учебник / М. В. Коротеев. — Москва : КноРус, 2025. — 431 с. — ISBN 978-5-406-14728-3. — URL: https://book.ru/book/957785 (дата обращения: 09.12.2025). — Текст : электронный.
- Криволапов С.Я. - Анализ данных. Методы теории вероятностей и математической статистики на языке Python - 978-5-16-018616-0 - ИНФРА-М - 2025 - https://znanium.ru/catalog/product/2034420 - 2034420 - ZNANIUM
- Ланских, Ю. В. Введение в большие данные : учебное пособие / Ю. В. Ланских, В. Г. Ланских, К. В. Родионов. — Киров : ВятГУ, 2023. — 172 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/408566 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Никитина, Т. П. Программирование. Основы Python для инженеров : учебное пособие для вузов / Т. П. Никитина, Л. В. Королев. — 3-е изд., стер. — Санкт-Петербург : Лань, 2026. — 156 с. — ISBN 978-5-507-51280-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/509001 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Общий искусственный интеллект, Тогелиус, Ю., 2025
- Основы Data Science и Big Data. Python и наука о данных : пер. с англ., Силен, Д., Мейсман, А., 2018
- Регулярные выражения, Фридл, Дж., 2008
- Рецепты Python : коллекция лучших техник программирования, Юн Цуй, 2024
- Сверхбыстрый Python : эффективные техники для работы с большими наборами данных, Антао, Т., 2023
- Теоретический минимум по Big Data : все, что нужно знать о больших данных, Ын, А., 2019
Рекомендуемая дополнительная литература
- Дадян Э.Г. - Данные: хранение и обработка - 978-5-16-021135-0 - ИНФРА-М - 2026 - https://znanium.ru/catalog/product/2214875 - 2214875 - ZNANIUM