Бакалавриат
2025/2026





Научно-исследовательский семинар: Основы анализа данных в Python
Статус:
Курс обязательный (Политология)
Кто читает:
Кафедра высшей математики
Где читается:
Общеуниверситетские кафедры
Когда читается:
3-й курс, 2, 3 модуль
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Тамбовцева Алла Андреевна
Язык:
русский
Кредиты:
1
Контактные часы:
36
Программа дисциплины
Аннотация
Дисциплина нацелена на развитие навыков обработки количественных данных в Python без углубления в математические основы и статистическую теорию. Элементы статистической теории в этом курсе используются, однако акцент делается на процедурах подготовки данных к анализу (чистка данных, фильтрация, группировка, агрегирование, элементы визуализации), а также использовании и интерпретации коэффициентов корреляции и регрессии (линейной и логистической) – наиболее широко применяемых инструментах анализа данных в социальных науках.
Цель освоения дисциплины
- освоение инструментов анализа данных в Python, подготовка к независимому экзамену по анализу данных
Планируемые результаты обучения
- различать корреляцию и каузацию по предложенным описаниям исследований
- уметь вычислять в Python коэффициент корреляции Пирсона и проверять его статистическую значимость
- уметь реализовывать в Python проверку независимости признаков в качественной шкале с помощью критерия хи-квадрат Пирсона
- различать по описанию исследования тип задачи машинного обучения
- уметь реализовывать в Python метод k-ближайших соседей
- уметь оценивать в Python модель линейной регрессии и интерпретировать полученные результаты
- уметь оценивать в Python модель логистической регрессии и интерпретировать полученные результаты
- уметь загружать данные из файлов CSVи Excel с помощью pandas
- уметь добавлять новые столбцы в датафрейм, использовать метод .apply() в сочетании с lambda-функциями
- уметь фильтровать строки датафрейма по условиям, использовать методы .isin() и .contains()
- уметь группировать строки датафрейма и выполнять агрегирование, использовать методы .groupby() и .agg()
- уметь определять тип шкалы и способ описания данных в зависимости от типа шкалы
- уметь вычислять описательные статистики с помощью функций и методов библиотек numpy и pandas
- уметь интерпретировать полученные описательные статистики, делать выводы об особенностях распределения на основе выдач Python и базовых графиков
- уметь строить гистограммы, сглаженные графики плотности, ящики с усами и скрипичные диаграммы в Python
- уметь строить столбиковые, круговые и кольцевые диаграммы в Python
- уметь вычислять количество пропущенных значений, заполнять пропущенные значения разными способами с помощью методов pandas
- уметь строить и интерпретировать доверительные интервалы для среднего и доли
- уметь различать ошибки первого и второго рода
- уметь интерпретировать результаты проверки гипотез, используя концепции p-value и построение критических областей
- уметь проверять в Python статистические гипотезы о доле и среднем, двух долях и двух средних
Содержание учебной дисциплины
- Основы работы с данными. Шкалы данных и выбор способа описания данных в зависимости от шкалы
- Опиcание количественных данных: описательные статистики и визуализация распределения
- Описание качественных данных: описательные статистики и визуализация
- Поиск связей в количественных и качественных данных
- Работа с пропущенными значениями
- Доверительные интервалы и проверка статистических гипотез
- Введение в машинное обучение
- Примеры прогнозирования в машинном обучении: линейная регрессия
- Примеры классификации в машинном обучении: логистическая регрессия
Элементы контроля
- ЛРЛР: лабораторные работы, оценка за них считается как неокругленное среднее арифметическое за все работы на курсе. Лабораторная работа представляет собой набор небольших практических задач в Python, для выполнения которых требуется вспомнить изучаемые на предыдущих курсах темы, необходимые для успешной работы на семинарах (материалы предоставляются преподавателем). Дедлайны по лабораторным работам жесткие, так как их выполнение привязано к занятиям по определенной теме.
- In-class assignmentКонтрольная работа представляет собой письменную работу в формате независимого экзамена по анализу данных по темам 2 модуля. Продолжительность работы – 80 минут. Контрольная работа состоит из теоретической части (часть А) и практической (части B и С). Практическая часть выполняется на компьютере в Python, ответы на вопросы переносятся в бумажные бланки.
- КвизыКвизы представляют собой небольшие письменные работы на 10 минут. В квиз входят теоретические вопросы в формате независимого экзамена по анализу данных, а также практические вопросы по коду Python и интерпретации его выдач. Запускать код и пользоваться материалами во время квиза не разрешается. Оценка за квизы в 10-балльной шкале формируется на основе нормировки суммарного балла за все квизы на курсе.
- ЭкзаменЭкзамен представляет собой письменную работу в формате независимого экзамена по анализу данных, состоящую из частей А, B и C. Задания в части А теоретические, во время их выполнения нельзя пользоваться никакими материалами. Задачи в частях B, С практические, для их решения необходимо написать код Python и зафиксировать результат. Во время выполнения частей B и C разрешается пользоваться официальной памяткой и документациями библиотек.
Промежуточная аттестация
- 2025/2026 3rd module0.16 * In-class assignment + 0.2 * Квизы + 0.24 * ЛР + 0.4 * Экзамен
Список литературы
Рекомендуемая основная литература
- Python и анализ данных : первичная обработка данных с применением pandas, NumPy и Jupiter, Маккинни, У., 2023
- Введение в статистическое обучение с примерами на языке R, Джеймс, Г., 2016
Рекомендуемая дополнительная литература
- Taieb, D. (2018). Data Analysis with Python : A Modern Approach. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1993344