• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2025/2026

Научно-исследовательский семинар: Основы анализа данных в Python

Статус: Курс обязательный (Политология)
Когда читается: 3-й курс, 2, 3 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 1
Контактные часы: 36

Программа дисциплины

Аннотация

Дисциплина нацелена на развитие навыков обработки количественных данных в Python без углубления в математические основы и статистическую теорию. Элементы статистической теории в этом курсе используются, однако акцент делается на процедурах подготовки данных к анализу (чистка данных, фильтрация, группировка, агрегирование, элементы визуализации), а также использовании и интерпретации коэффициентов корреляции и регрессии (линейной и логистической) – наиболее широко применяемых инструментах анализа данных в социальных науках.
Цель освоения дисциплины

Цель освоения дисциплины

  • освоение инструментов анализа данных в Python, подготовка к независимому экзамену по анализу данных
Планируемые результаты обучения

Планируемые результаты обучения

  • различать корреляцию и каузацию по предложенным описаниям исследований
  • уметь вычислять в Python коэффициент корреляции Пирсона и проверять его статистическую значимость
  • уметь реализовывать в Python проверку независимости признаков в качественной шкале с помощью критерия хи-квадрат Пирсона
  • различать по описанию исследования тип задачи машинного обучения
  • уметь реализовывать в Python метод k-ближайших соседей
  • уметь оценивать в Python модель линейной регрессии и интерпретировать полученные результаты
  • уметь оценивать в Python модель логистической регрессии и интерпретировать полученные результаты
  • уметь загружать данные из файлов CSVи Excel с помощью pandas
  • уметь добавлять новые столбцы в датафрейм, использовать метод .apply() в сочетании с lambda-функциями
  • уметь фильтровать строки датафрейма по условиям, использовать методы .isin() и .contains()
  • уметь группировать строки датафрейма и выполнять агрегирование, использовать методы .groupby() и .agg()
  • уметь определять тип шкалы и способ описания данных в зависимости от типа шкалы
  • уметь вычислять описательные статистики с помощью функций и методов библиотек numpy и pandas
  • уметь интерпретировать полученные описательные статистики, делать выводы об особенностях распределения на основе выдач Python и базовых графиков
  • уметь строить гистограммы, сглаженные графики плотности, ящики с усами и скрипичные диаграммы в Python
  • уметь строить столбиковые, круговые и кольцевые диаграммы в Python
  • уметь вычислять количество пропущенных значений, заполнять пропущенные значения разными способами с помощью методов pandas
  • уметь строить и интерпретировать доверительные интервалы для среднего и доли
  • уметь различать ошибки первого и второго рода
  • уметь интерпретировать результаты проверки гипотез, используя концепции p-value и построение критических областей
  • уметь проверять в Python статистические гипотезы о доле и среднем, двух долях и двух средних
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы работы с данными. Шкалы данных и выбор способа описания данных в зависимости от шкалы
  • Опиcание количественных данных: описательные статистики и визуализация распределения
  • Описание качественных данных: описательные статистики и визуализация
  • Поиск связей в количественных и качественных данных
  • Работа с пропущенными значениями
  • Доверительные интервалы и проверка статистических гипотез
  • Введение в машинное обучение
  • Примеры прогнозирования в машинном обучении: линейная регрессия
  • Примеры классификации в машинном обучении: логистическая регрессия
Элементы контроля

Элементы контроля

  • неблокирующий ЛР
    ЛР: лабораторные работы, оценка за них считается как неокругленное среднее арифметическое за все работы на курсе. Лабораторная работа представляет собой набор небольших практических задач в Python, для выполнения которых требуется вспомнить изучаемые на предыдущих курсах темы, необходимые для успешной работы на семинарах (материалы предоставляются преподавателем). Дедлайны по лабораторным работам жесткие, так как их выполнение привязано к занятиям по определенной теме.
  • неблокирующий In-class assignment
    Контрольная работа представляет собой письменную работу в формате независимого экзамена по анализу данных по темам 2 модуля. Продолжительность работы – 80 минут. Контрольная работа состоит из теоретической части (часть А) и практической (части B и С). Практическая часть выполняется на компьютере в Python, ответы на вопросы переносятся в бумажные бланки.
  • неблокирующий Квизы
    Квизы представляют собой небольшие письменные работы на 10 минут. В квиз входят теоретические вопросы в формате независимого экзамена по анализу данных, а также практические вопросы по коду Python и интерпретации его выдач. Запускать код и пользоваться материалами во время квиза не разрешается. Оценка за квизы в 10-балльной шкале формируется на основе нормировки суммарного балла за все квизы на курсе.
  • неблокирующий Экзамен
    Экзамен представляет собой письменную работу в формате независимого экзамена по анализу данных, состоящую из частей А, B и C. Задания в части А теоретические, во время их выполнения нельзя пользоваться никакими материалами. Задачи в частях B, С практические, для их решения необходимо написать код Python и зафиксировать результат. Во время выполнения частей B и C разрешается пользоваться официальной памяткой и документациями библиотек.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 3rd module
    0.16 * In-class assignment + 0.2 * Квизы + 0.24 * ЛР + 0.4 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Python и анализ данных : первичная обработка данных с применением pandas, NumPy и Jupiter, Маккинни, У., 2023
  • Введение в статистическое обучение с примерами на языке R, Джеймс, Г., 2016

Рекомендуемая дополнительная литература

  • Taieb, D. (2018). Data Analysis with Python : A Modern Approach. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1993344

Авторы

  • Тамбовцева Алла Андреевна
  • Буваева Роксана Викторовна