• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2025/2026

Анализ данных

Статус: Курс обязательный (Управление бизнесом)
Когда читается: 3-й курс, 1 модуль
Онлайн-часы: 50
Охват аудитории: для всех кампусов НИУ ВШЭ
Преподаватели: Бражник Дмитрий Алексеевич, Гусев Владислав Дмитриевич
Язык: русский
Кредиты: 3
Контактные часы: 24

Программа дисциплины

Аннотация

Данный курс представляет собой адаптацию общеуниверситетского курса по анализу данных и направлен на формирование компетенций в области статистики и анализа данных. В курсе будут рассмотрены темы, которые необходимы для успешного освоения основных понятий и методов, связанных с анализом данных. Также будут рассмотрены темы, связанные с основами машинного обучения. Дисциплина реализуется с помощью онлайн-курса «Учебник по Анализу данных (Базовый)» в SmartLMS (https://edu.hse.ru/course/view.php?id=136232).
Цель освоения дисциплины

Цель освоения дисциплины

  • Целью освоения дисциплины «Анализ данных» является овладение студентами основами статистики и анализа данных для применения в решении различных практических задач.
Планируемые результаты обучения

Планируемые результаты обучения

  • Реализовать предложенный пошаговый алгоритм решения задачи.
  • Придумывать собственный алгоритм для решения задачи и реализовывать его.
  • Использовать Python в применении к анализу данных.
  • Корректно открывать табличные данные различных форматов.
  • Фильтровать данные по нескольким условиям.
  • Сортировать данные.
  • Использовать собственноручно написанные функции для обработки данных, создания новых переменных.
  • Создавать сводные таблицы.
  • Вычислять описательные статистики и интерпретировать полученные результаты.
  • Переводить значения признака в z-оценки.
  • Обрабатывать пропущенные значения и выбросы.
  • Вычислять релевантные описательные статистики и интерпретировать полученные результаты.
  • Вычислять коэффициент корреляции Пирсона и интерпретировать полученные результаты.
  • Визуализировать данные с помощью простейших видов диаграмм: линейной, точечной, столбчатой.
  • Понимать и корректно использовать основные статистические понятия.
  • Визуализировать данные с помощью различных диаграмм: тепловой карты, ящика с усами и других.
  • Создавать интерактивные визуализации.
  • Реализовывать разведочный анализ данных.
  • Уметь реализовывать все шаги проверки статистических гипотез.
  • Применять параметрические статистические критерии для проверки гипотез.
  • Применять непараметрические статистические критерии для проверки гипотез.
  • Построить уравнение линейной регрессии с использованием метода наименьших квадратов.
  • Оценивать качество модели линейной регрессии с помощью релевантных метрик.
  • Решать задачу классификации с использованием логистической регрессии и KNN.
  • Оценивать качество модели классификации с помощью релевантных метрик.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в инструменты
  • Введение в статистику. Базовые манипуляции с данными.
  • Типы данных. Создание новых переменных.
  • Генеральная совокупность и выборка. Частотные таблицы и распределения.
  • Описательные статистики: меры центральной тенденции и разброса.
  • Z-оценка. Выбросы.
  • Корреляция.
  • Введение в визуализацию данных.
  • Продвинутая визуализация данных.
  • Введение в тестирование гипотез. Непараметрические критерии.
  • Параметрические критерии для проверки гипотез.
  • Линейная регрессия.
  • Логистическая регрессия.
  • Введение в машинное обучение.
  • Визуализация данных
Элементы контроля

Элементы контроля

  • неблокирующий СР
    Самостоятельные работы (СР) проводятся в начале занятия по заданиям НЭ. На выполнение СР отводится от 15 до 25 минут. - Самостоятельные работы проводятся в онлайн-формате с использованием системы прокторинга. - В процессе самостоятельных работ требуется демонстрировать ВСЕ вкладки и экраны компьютера. - Необходимо включить веб-камеру. - Также обязательно установить боковую камеру, которую можно организовать с помощью телефона, чтобы обеспечить двойной прокторинг. - Все задания самостоятельных работ представлены в формате НЭ. - Для идентификации в Zoom каждый студент должен указать свою ФАМИЛИЮ, ИМЯ и НОМЕР ГРУППЫ.
  • неблокирующий Экзамен
    - Экзамен проводится в рамках сессии в онлайн-формате с использованием системы прокторинга. Время выполнения экзамена — 120 минут. Студентам необходимо соблюдать следующие правила: - В процессе экзамена требуется демонстрировать ВСЕХ вкладок и экранов компьютера. - Необходимо включить веб-камеру. - Также обязательно установить боковую камеру, которую можно организовать с помощью телефона, чтобы обеспечить двойной прокторинг. - Все задания экзамена представлены в формате НЭ. - Для идентификации в Zoom каждый студент должен указать свою ФАМИЛИЮ, ИМЯ и НОМЕР ГРУППЫ.
  • неблокирующий Активность
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 1st module
    MIN(8; 0.2 * Активность + 0.4 * СР+0.4 * ЭКЗ)
Список литературы

Список литературы

Рекомендуемая основная литература

  • Essentials of statistics for the behavioral sciences, Gravetter, F. J., 2014

Рекомендуемая дополнительная литература

  • Статистика и котики, Савельев, В. В., 2018

Авторы

  • Королева Анастасия Романовна
  • Перевышина Татьяна Олеговна
  • Рословцева Кристина Олеговна
  • Кононова Елизавета Дмитриевна