• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2025/2026

Агрегация, очистка и парсинг данных

Статус: Маго-лего
Когда читается: 2 модуль
Охват аудитории: для своего кампуса
Язык: русский
Контактные часы: 28

Программа дисциплины

Аннотация

Учебная дисциплина «Агрегация, очистка и парсинг данных» предоставляет студентам комплексные знания и навыки по сбору, обработке и хранению данных из различных источников, включая веб-страницы, социальные сети и базы данных. Студенты научатся использовать язык программирования Python и специализированные библиотеки для выгрузки данных, их очистки и структурирования. Особое внимание уделяется работе с текстовыми данными, извлечению информации из веб-страниц с помощью парсинга HTML и взаимодействию с API.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоить типологию данных и этапы жизненного цикла данных.
  • Научиться получать данные из файлов, API и веб‑страниц с соблюдением этики и безопасности.
  • Овладеть первичной обработкой и очисткой табличных и текстовых данных, в т.ч. разбором вложенных структур JSON/XML.
  • Научиться выполнять группировки, агрегаты и соединения наборов данных.
Планируемые результаты обучения

Планируемые результаты обучения

  • Различать типы данных (структурированные, полуструктурированные, неструктурированные), выявлять источники данных (файлы, базы данных, API, веб-сайты)
  • Корректно открывать и сохранять табличные и текстовые данные: CSV, Excel, JSON (в т.ч. JSONL), XML, TXT.
  • Разбирать вложенные структуры JSON/XML, нормализовать данные.
  • Получать данные из API (аутентификация, пагинация, лимиты, обработка ошибок).
  • Выполнять web scraping базового уровня (requests, разбор HTML, BeautifulSoup) с соблюдением условий использования.
  • Применять процедуры очистки: обработка пропусков, дубликатов, аномальных значений, исправление типов и форматов.
  • Проводить стандартизацию текстов: регистр, пробелы и символы, транслитерация, унификация словарей.
  • Выполнять базовую очистку текстов: удаление шумов/HTML, стоп‑слова, токенизация, лемматизация/стемминг.
  • Строить группировки и агрегаты (groupby, сводные таблицы), соединять и объединять наборы (join/merge/concat).
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Типы и источники данных. Жизненный цикл данных
  • Работа с табличными и текстовыми файлами. Вложенные структуры
  • Web scraping: основы HTML и этика
  • Работа с API
  • Очистка табличных данных и стандартизация форматов
  • Очистка и нормализация текстовых данных
  • Интеграция данных: группировки, агрегаты, соединения
Элементы контроля

Элементы контроля

  • неблокирующий ДЗ1
    Домашнее задание по итогам тем 1-2
  • неблокирующий ДЗ2
    Домашнее задание по итогам темы 3
  • неблокирующий ДЗ3
    Домашнее задание по итогам темы 4
  • неблокирующий ДЗ4
    Домашнее задание по итогам темы 5
  • неблокирующий ДЗ5
    Домашнее задание по итогам темы 6
  • неблокирующий Хакатон
    Хакатон по материалам курса
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    0.14 * ДЗ1 + 0.14 * ДЗ2 + 0.14 * ДЗ3 + 0.14 * ДЗ4 + 0.14 * ДЗ5 + 0.3 * Хакатон
Список литературы

Список литературы

Рекомендуемая основная литература

  • Álvaro Scrivano. (2019). Coding with Python. Minneapolis: Lerner Publications ™. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1947372
  • Berry, M. W., & Kogan, J. (2010). Text Mining : Applications and Theory. Chichester, U.K.: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=314553
  • Python для data science, Васильев, Ю., 2023

Рекомендуемая дополнительная литература

  • Hajba G.L. Website Scraping with Python: Using BeautifulSoup and Scrapy / G.L. Hajba, Berkeley, CA: Apress, 2018.
  • Seppe vanden Broucke, & Bart Baesens. (2018). Practical Web Scraping for Data Science : Best Practices and Examples with Python. Apress.

Авторы

  • Яковлева Илона Александровна
  • Бурова Маргарита Борисовна
  • Меликян Алиса Валерьевна