Бакалавриат
2021/2022



Основы анализа данных в R
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Экономика)
Направление:
38.03.01. Экономика
Кто читает:
Департамент экономики и финансов
Где читается:
Факультет менеджмента (Пермь)
Когда читается:
2-й курс, 3 модуль
Формат изучения:
с онлайн-курсом
Онлайн-часы:
44
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Контактные часы:
40
Программа дисциплины
Аннотация
Данный курс представляет собой адаптацию общеуниверситетского курса по анализу данных специально для студентов образовательной программы «Экономика» и направлен на формирование компетенций в области статистики и анализа данных. В курсе будут рассмотрены темы, которые необходимы для успешного освоения основных понятий и методов, связанных с анализом данных. Также будут рассмотрены темы, связанные с основами машинного обучения. Практические занятия по курсу проводятся на языке программирования R. Дисциплина реализуется с помощью онлайн-курса «Статистика для анализа данных» (https://edu.hse.ru/course/view.php?id=136232), а также с применением интерактивных занятий на языке R на платформе DataCamp (www.datacamp.com).
Цель освоения дисциплины
- Знакомство c языком программирования R
- Умение импортировать данные и проводить базовую предобработку данных для дальнейшего анализа в языке программирование R
- Знать и применять основные методы базового анализа данных, понимать применимость и ограничение этих методов
Планируемые результаты обучения
- ● Корректно открывать табличные данные различных форматов, работать с ними.
- ● Визуализировать данные с помощью различных диаграмм: тепловой карты, ящика с усами и других.
- Понимать и корректно использовать основные статистические понятия
- Фильтровать данные по нескольким условиям
- Вычислять релевантные описательные статистики и интерпретировать полученные результаты
- Визуализировать данные с помощью простейших видов диаграмм: линейной, точечной, столбчатой
- Уметь реализовывать все шаги проверки статистических гипотез
- Применять параметрические статистические критерии для проверки гипотез
- Применять непараметрические статистические критерии для проверки гипотез
- Создавать интерактивные визуализации
- Использовать R в применении к анализу данных
- Сортировать данные
- Уметь применять функции пакета dplyr на языке программирования R
- Уметь идентифицировать типы данных
- Уметь строить гистограмму и полигон, различать необходимость их применения
- Переводить значения признака в z-оценки
- Обрабатывать пропущенные значения и выбросы
- Строить уравнение линейной регрессии с использованием метода наименьших квадратов
- Оценивать качество модели линейной регрессии с помощью релевантных метрик
- Оценивать качество модели логистической регрессии с помощью релевантных метрик
- Строить модель логит, интерпретировать коэффициенты
- Решать задачу классификации с использованием KNN
- Оценивать качество модели классификации с помощью релевантных метрик
Содержание учебной дисциплины
- Основы работы в R
- Тестирование статистических гипотез
- Метод главных компонент и кластерный анализ
Элементы контроля
- Проект
- МикроконтролиОценка за микроконтроли рассчитывается как среднее арифмитеческое отдельных микроконтролей, всего из будет проведено 5-6. Обычно микроконтроль проводится в начале семинара в течение 5-7 минут, включает в себя вопросы по пройденному материалу.
- Самостоятельная работа (DataCamp)Студентам предлагаются к прохождению обязательные курсы и дополнительные курсы на площадке DataCamp
- ОтчетыПо итогам части семинаров студенты оформляют отчет о проделанной работе. Оценка за отчеты составляет среднее арифметическое всех отчетов.
- ЭкзаменЭзамен представляет собой 60-минутную письменную работу, которая включает в себя (1) тестовые задания открытого типа; (2) тестовые задания закрытого типа; (3) интерпретация результатов работы алгоритма на языке программирования R