2025/2026




Быстрое создание MVP в Data Science
Статус:
Маго-лего
Где читается:
Факультет компьютерных наук
Когда читается:
3 модуль
Онлайн-часы:
50
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Паточенко Евгений Анатольевич
Язык:
русский
Кредиты:
3
Контактные часы:
12
Программа дисциплины
Аннотация
Дисциплина «Продвинутые инструменты анализа данных» направлена на освоение студентами более глубоких цифровых компетенций в дополнение к стандартному курсу по анализу данных. В рамках дисциплины будут рассмотрены темы парсинга и структурирования данных, логическая регрессия, деревья решений, работа с текстами. Студенты будут работать над индивидуальными проектными идеями по анализу данных и получат практические рекомендации для реализации своих проектных идей с помощью продвинутых инструментов.
Цель освоения дисциплины
- Целью освоения дисциплины «Анализ данных» является овладение студентами основами статистики и анализа данных для применения в решении различных практических задач. В рамках ОП «Юриспруденция» дисциплина позволяет формировать цифровые и аналитические компетенции, необходимые для работы с различными текстовыми юридическими источниками.
Планируемые результаты обучения
- - Парсить данные с использованием BeautifulSoup/Selenium; - Применять методы предобработки и анализа текстов (TF-IDF, n-граммы, лемматизация - Решать задачи бинарной классификации с помощью логистической регрессии - Строить и интерпретировать решающие деревья
- - Уметь реализовывать все шаги проверки статистических гипотез - Применять параметрические статистические критерии для проверки гипотез - Применять непараметрические статистические критерии для проверки гипотез - Построить уравнение линейной регрессии с использованием метода наименьших квадратов - Оценивать качество модели линейной регрессии с помощью релевантных метрик - Решать задачу классификации с использованием логистической регрессии и KNN
- - Переводить значения признака в z-оценки - Обрабатывать пропущенные значения и выбросы - Вычислять релевантные описательные статистики и интерпретировать полученные результаты - Вычислять коэффициент корреляции Пирсона и интерпретировать полученные результаты
- - Корректно открывать табличные данные различных форматов - Фильтровать данные по нескольким условиям - Сортировать данные - Использовать собственноручно написанные функции для обработки данных, создания новых переменных - Создавать сводные таблицы
Содержание учебной дисциплины
- Парсинг данных
- Работа с текстами
- Логистическая регрессия
- Решающее дерево и ансамбли
Промежуточная аттестация
- 2025/2026 3rd moduleИтог = Округление(0,4* Тесты (среднее за все тесты) + 0,25 * Домашнее задание + 0,35 * Итоговый проект), максимум – 10 баллов. Округление арифметическое
Список литературы
Рекомендуемая основная литература
- Elementary statistics : a step by step approach, Bluman, A. G., 1995
- Elementary statistics : a step by step approach, Bluman, A. G., 2007
- Essentials of statistics for the behavioral sciences, Gravetter, F. J., 2011
- Essentials of statistics for the behavioral sciences, Gravetter, F. J., 2014
- Excel 2007. Анализ данных и бизнес-моделирование, Винстон, У.Л., 2008
- Анализ инвестиционных проектов для развития банковского бизнеса : автореф. дис. ... канд. экон. наук : 08.00.12, Савельева, М. Г., 2006
- Маккинни, У. Python и анализ данных / У. Маккинни , перевод с английского А. А. Слинкина. — 2-ое изд., испр. и доп. — Москва : ДМК Пресс, 2020. — 540 с. — ISBN 978-5-97060-590-5. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/131721 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Бизнес, статистика и котики, Савельев, В. В., 2023