2025/2026





Агрегация, очистка и парсинг данных
Статус:
Маго-лего
Где читается:
Факультет компьютерных наук
Когда читается:
2 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Бурова Маргарита Борисовна
Язык:
русский
Контактные часы:
28
Программа дисциплины
Аннотация
Учебная дисциплина «Агрегация, очистка и парсинг данных» предоставляет студентам комплексные знания и навыки по сбору, обработке и хранению данных из различных источников, включая веб-страницы, социальные сети и базы данных. Студенты научатся использовать язык программирования Python и специализированные библиотеки для выгрузки данных, их очистки и структурирования. Особое внимание уделяется работе с текстовыми данными, извлечению информации из веб-страниц с помощью парсинга HTML и взаимодействию с API.
Цель освоения дисциплины
- Освоить типологию данных и этапы жизненного цикла данных.
- Научиться получать данные из файлов, API и веб‑страниц с соблюдением этики и безопасности.
- Овладеть первичной обработкой и очисткой табличных и текстовых данных, в т.ч. разбором вложенных структур JSON/XML.
- Научиться выполнять группировки, агрегаты и соединения наборов данных.
Планируемые результаты обучения
- Различать типы данных (структурированные, полуструктурированные, неструктурированные), выявлять источники данных (файлы, базы данных, API, веб-сайты)
- Корректно открывать и сохранять табличные и текстовые данные: CSV, Excel, JSON (в т.ч. JSONL), XML, TXT.
- Разбирать вложенные структуры JSON/XML, нормализовать данные.
- Получать данные из API (аутентификация, пагинация, лимиты, обработка ошибок).
- Выполнять web scraping базового уровня (requests, разбор HTML, BeautifulSoup) с соблюдением условий использования.
- Применять процедуры очистки: обработка пропусков, дубликатов, аномальных значений, исправление типов и форматов.
- Проводить стандартизацию текстов: регистр, пробелы и символы, транслитерация, унификация словарей.
- Выполнять базовую очистку текстов: удаление шумов/HTML, стоп‑слова, токенизация, лемматизация/стемминг.
- Строить группировки и агрегаты (groupby, сводные таблицы), соединять и объединять наборы (join/merge/concat).
Содержание учебной дисциплины
- Типы и источники данных. Жизненный цикл данных
- Работа с табличными и текстовыми файлами. Вложенные структуры
- Web scraping: основы HTML и этика
- Работа с API
- Очистка табличных данных и стандартизация форматов
- Очистка и нормализация текстовых данных
- Интеграция данных: группировки, агрегаты, соединения
Элементы контроля
- ДЗ1Домашнее задание по итогам тем 1-2
- ДЗ2Домашнее задание по итогам темы 3
- ДЗ3Домашнее задание по итогам темы 4
- ДЗ4Домашнее задание по итогам темы 5
- ДЗ5Домашнее задание по итогам темы 6
- ХакатонХакатон по материалам курса
Промежуточная аттестация
- 2025/2026 2nd module0.14 * ДЗ1 + 0.14 * ДЗ2 + 0.14 * ДЗ3 + 0.14 * ДЗ4 + 0.14 * ДЗ5 + 0.3 * Хакатон
Список литературы
Рекомендуемая основная литература
- Álvaro Scrivano. (2019). Coding with Python. Minneapolis: Lerner Publications ™. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1947372
- Berry, M. W., & Kogan, J. (2010). Text Mining : Applications and Theory. Chichester, U.K.: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=314553
- Python для data science, Васильев, Ю., 2023
Рекомендуемая дополнительная литература
- Hajba G.L. Website Scraping with Python: Using BeautifulSoup and Scrapy / G.L. Hajba, Berkeley, CA: Apress, 2018.
- Seppe vanden Broucke, & Bart Baesens. (2018). Practical Web Scraping for Data Science : Best Practices and Examples with Python. Apress.