Бакалавриат
2024/2025




Анализ данных на Python
Статус:
Курс обязательный (Разработка информационных систем для бизнеса)
Направление:
09.03.04. Программная инженерия
Кто читает:
Кафедра высшей математики
Где читается:
Факультет менеджмента (Пермь)
Когда читается:
2-й курс, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Язык:
русский
Кредиты:
3
Программа дисциплины
Аннотация
Для образовательной программы дисциплина «Анализ данных на Python» является обязательной. Дисциплина подразделяется на три блока. Первый блок посвящен работе с основными структурами данных в Python, таких как списки, кортежи, словари и массивы. Второй блок посвящен обработке и визуализации данных с помощью библиотек NumpPy, Pandas, Matplotlib и Scipy. Третий блок посвящен решению прикладных задач в Python и включает темы, связанные со сбором и анализом данных: работа с API, обработка JSON и HTML, применение статистических критериев и построение моделей линейной и логистической регрессии.
Цель освоения дисциплины
- Использовать средства отладки современных систем программирования; реализовать алгоритм на языке Python, используя наиболее подходящие конструкции и структуры данных.
- Освоить базовые инструменты анализа и визуализации данных в Python
Планируемые результаты обучения
- уметь применять методы на индексируемых структурах данных Python;
- уметь выполнять операции на массивах NumPy
- уметь вычислять и интерпретировать числовые характеристики выборки
- уметь загружать и обрабатывать данные с помощью библиотеки pandas
- уметь выполнять предварительную обработку текста и строить облака слов
- уметь выполнять сериализацию и десериализацию JSON в Python
- уметь выполнять парсинг HTML c помощью bs4, уметь выполнять поиск по тэгам и атрибутам
- уметь строить и интерпретировать графики для визуализации качественных и количественных данных
- уметь осуществлять проверку статистических гипотез о доли и среднем с помощью модуля stats и интерпретировать полученные результаты
- уметь строить доверительные интервалы для доли и среднего с помощью модуля stats и интерпретировать полученные результаты
- уметь выявлять связи в количественных данных с помощью библиотеки pandas и модуля stats
- уметь реализовывать иерархический кластерный анализ в Python и интерпретировать полученные результаты
- уметь строить модели линейной регрессии с помощью библиотеки statsmodels и интерпретировать полученные результаты
- владеть навыками работы с базовыми структурами данных в Python
- уметь создавать и обрабатывать массивы NumPy
- уметь вычислять в Python описательные статистики и реализовывать статистические критерии для сравнения групп
- уметь обрабатывать и преобразовывать датафреймы Pandas
- уметь оценивать в Python модель линейной регрессии и интерпретировать результаты
- уметь вычислять в Python коэффициент корреляции Пирсона и Спирмена, строить корреляционные матрицы
- уметь оценивать в Python модель логистической регрессии и оценивать качество классификации
- определять шкалы данных и выбирать подходящие для них способы визуализации, уметь строить различные виды графиков с помощью matplotlib и seaborn
- уметь десериализовывать JSON в Python, уметь обрабатывать строки и файлы JSON с помощью pandas
Содержание учебной дисциплины
- Индексируемые структуры данных
- Массивы NumPy и операции на массивах
- Неиндексируемые структуры данных
- Описание данных и проверка статистических гипотез
- Датафреймы Pandas и операции на датафреймах
- Визуализация данных
- Меры связи и линейная регрессия
- Классификация и логистическая регрессия
Элементы контроля
- HomeworkМини-проекты, посвященные анализу и визуализации данных (библиотеки NumPy, Pandas, Scipy, Matplotlib), а также сбору и обработке данных (форматы JSON и HTML, подключение к API). Домашние задания, сданные после срока, оцениваются с использованием понижающих коэффициентов: опоздание в пределах часа – штраф 10% от полученной оценки, в пределах суток – штраф 30%. Домашние задания, сданные позже, не принимаются и не оцениваются.
- ActivityУчастие в квизах, опросах и групповых заданиях на семинарах
- Test
Список литературы
Рекомендуемая основная литература
- McKinney, W. (2018). Python for Data Analysis : Data Wrangling with Pandas, NumPy, and IPython (Vol. Second edition). Sebastopol, CA: O’Reilly Media. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1605925
- Груздев, А. В. Изучаем Pandas / А. В. Груздев, М. Хейдт , перевод с английского А. В. Груздева. — 2-ое изд., испр. и доп. — Москва : ДМК Пресс, 2019. — 700 с. — ISBN 978-5-97060-670-4. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131693 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Чарльз Уилан - Голая статистика - 9785001008231 - МИФ - 2016 - https://hse.miflib.ru/#/book/14957 - 14957