Технологии обработки данных

Бакалавриат 2025/2026

Лучший по критерию «Полезность курса для Вашей будущей карьеры»

Лучший по критерию «Новизна полученных знаний»

Статус: Курс обязательный (Технологии анализа данных в бизнесе)

Кто читает: Департамент бизнес-информатики

Где читается: Высшая школа бизнеса

Когда читается: 1-й курс, 4 модуль

Охват аудитории: для своего кампуса

Преподаватели: Бедак Иван Андреевич, Макрушин Сергей Вячеславович

Язык: русский

Кредиты: 4

Контактные часы: 48

Дополнительные материалы в LMS Задать вопрос

Аннотация

Курс формирует практические компетенции в области инженерии данных на Python: от работы с базовыми структурами (NumPy, pandas) и форматами хранения (CSV, Parquet, Excel, JSON, XML) до разведочного анализа и базовой обработки текстовых данных . Во второй части курса рассматриваются инженерные аспекты построения надёжных конвейеров обработки данных: отладка, профилирование и оптимизация, параллельная обработка, масштабирование на объёмы данных превышающие оперативную память с помощью Dask, а также современные практики ИИ-ассистированной разработки.

Цель освоения дисциплины

Сформировать практические навыки построения надёжных и эффективных конвейеров обработки данных на Python - от чтения разнородных источников и очистки данных до масштабирования вычислений и встраивания ИИ-инструментов в рабочий процесс инженера данных.

Планируемые результаты обучения

- Создавать и индексировать многомерные массивы ndarray с использованием срезов, fancy indexing и булевых масок. - Применять broadcasting для векторизованных операций над массивами различных форм без явных циклов. - Выбирать между view и копией массива, обосновывая решение с точки зрения потребления памяти.
- Выполнять индексацию и фильтрацию DataFrame с использованием loc, iloc и булевых условий. - Объединять таблицы операциями merge/join, выбирая тип соединения в соответствии с задачей. - Агрегировать данные через groupby в парадигме split–apply–combine, включая применение пользовательских функций.
- Различать текстовые и бинарные форматы хранения данных, аргументируя выбор формата под конкретную задачу. - Читать и записывать данные в форматах JSON и XML средствами Python. - Объяснять риски и ограничения pickle, связанные с безопасностью и переносимостью.
- Читать и записывать CSV-файлы, корректно обрабатывая нетипичные разделители, кодировки и типы столбцов. - Обосновывать преимущества колоночного формата Parquet перед CSV для аналитических нагрузок. - Автоматизировать чтение и запись данных в Excel-книги через XLWings, встраивая Python-обработку в Excel-окружение.
- Строить графики средствами matplotlib (Axes API), управляя осями, подписями и компоновкой. - Применять seaborn для визуализации распределений, корреляций и попарных зависимостей признаков. - Проводить EDA по стандартному чеклисту: пропуски, выбросы, распределения, корреляции
- Применять встроенные строковые методы и str-аксессор pandas для очистки и нормализации текстовых полей. - Составлять регулярные выражения для извлечения, валидации и замены подстрок с использованием модуля re. - Отлаживать регулярные выражения, объясняя работу квантификаторов, групп и lookahead-конструкций.
- Выявлять узкие места производительности с помощью timeit и cProfile, интерпретируя профиль вызовов. - Применять векторизацию и JIT-компиляцию Numba для ускорения числовых вычислений, опираясь на данные профилировщика.
- Объяснять природу GIL и обосновывать выбор между потоками и процессами для CPU-bound и I/O-bound задач. - Реализовывать параллельный map над батчами данных через ProcessPoolExecutor и multiprocessing.Pool. - Идентифицировать типичные ошибки параллельных пайплайнов: race conditions, избыточный overhead на сериализацию.
- Строить ленивые вычислительные графы средствами dask.dataframe и запускать их через compute(). - Применять dask.dataframe для обработки табличных данных, не помещающихся в оперативную память. - Декомпозировать задачу обработки данных в цепочку map–filter–reduce операций, обосновывая такой выбор.
- Формулировать эффективные промпты для кодогенерации и рефакторинга функций трансформации данных. - Верифицировать и критически оценивать код, сгенерированный LLM, выявляя потенциальные дефекты логики. - Встраивать ИИ-инструменты (Copilot, Claude Code и др.) в рабочий цикл разработки, сохраняя ответственность за качество кода.