Агрегация, очистка и парсинг данных

2025/2026

Статус: Маго-лего

Кто читает: Департамент больших данных и информационного поиска

Где читается: Факультет компьютерных наук

Когда читается: 2 модуль

Охват аудитории: для своего кампуса

Преподаватели: Бурова Маргарита Борисовна

Язык: русский

Кредиты: 3

Контактные часы: 28

Дополнительные материалы в LMS Задать вопрос

Аннотация

Учебная дисциплина «Агрегация, очистка и парсинг данных» предоставляет студентам комплексные знания и навыки по сбору, обработке и хранению данных из различных источников, включая веб-страницы, социальные сети и базы данных. Студенты научатся использовать язык программирования Python и специализированные библиотеки для выгрузки данных, их очистки и структурирования. Особое внимание уделяется работе с текстовыми данными, извлечению информации из веб-страниц с помощью парсинга HTML и взаимодействию с API.

Цель освоения дисциплины

Освоить типологию данных и этапы жизненного цикла данных.
Научиться получать данные из файлов, API и веб‑страниц с соблюдением этики и безопасности.
Овладеть первичной обработкой и очисткой табличных и текстовых данных, в т.ч. разбором вложенных структур JSON/XML.
Научиться выполнять группировки, агрегаты и соединения наборов данных.

Планируемые результаты обучения

Различать типы данных (структурированные, полуструктурированные, неструктурированные), выявлять источники данных (файлы, базы данных, API, веб-сайты)
Корректно открывать и сохранять табличные и текстовые данные: CSV, Excel, JSON (в т.ч. JSONL), XML, TXT.
Разбирать вложенные структуры JSON/XML, нормализовать данные.
Получать данные из API (аутентификация, пагинация, лимиты, обработка ошибок).
Выполнять web scraping базового уровня (requests, разбор HTML, BeautifulSoup) с соблюдением условий использования.
Применять процедуры очистки: обработка пропусков, дубликатов, аномальных значений, исправление типов и форматов.
Проводить стандартизацию текстов: регистр, пробелы и символы, транслитерация, унификация словарей.
Выполнять базовую очистку текстов: удаление шумов/HTML, стоп‑слова, токенизация, лемматизация/стемминг.
Строить группировки и агрегаты (groupby, сводные таблицы), соединять и объединять наборы (join/merge/concat).