Бакалавриат
2020/2021



Научно-исследовательский семинар "Анализ данных в Python"
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Статус:
Курс по выбору (Программная инженерия)
Направление:
09.03.04. Программная инженерия
Кто читает:
Департамент программной инженерии
Где читается:
Факультет компьютерных наук
Когда читается:
1-й курс, 1-3 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Меликян Алиса Валерьевна
Язык:
русский
Кредиты:
3
Контактные часы:
44
Программа дисциплины
Аннотация
В результате освоения дисциплины «Анализ данных в Python» студенты изучат современные методы анализа данных для проведения исследований и овладеют практическими навыками использования современных программных средств для работы с данными. Студенты смогут осуществить предварительную подготовку данных для последующей работы с ними, выбрать подходящий метод анализа в зависимости от типа данных и исследовательской задачи, провести анализ данных и интерпретировать полученные результаты, представлять их в доступном для широкой аудитории виде.
Цель освоения дисциплины
- Развитие навыков анализа данных с использованием современных программных средств для проведения исследований.
Планируемые результаты обучения
- Уметь работать с разными типами файлов и данных
- Уметь провести описательный анализ данных
- Уметь провести графический анализ данных
- Уметь провести анализ взаимосвязей переменных и представить его результаты в виде, доступном для широкой аудитории
- Уметь провести сбор данных с веб-страниц и представить их в структурированном виде
Содержание учебной дисциплины
- Введение в Python. Типы данных и переменные.Установка и настройка среды разработки (пакет Anaconda). Интерфейс Jupyter Notebook. Установка и подключение библиотек. Синтаксис языка. Работа с данными разных типов: числа, строки, логические значения, списки, словари, множества. Переменные и константы. Функции.
- Работа с даннымиТипы файлов. Режимы доступа к файлу. Чтение файла. Запись данных в файл. Пути к файлам и папкам. Работа с большими таблицами. Объекты Series (последовательность) и DataFrame (таблица). Обработка и проверка данных перед анализом. Представление данных в удобном для анализа виде. Внесение изменений в данные. Объединение таблиц. Библиотека pandas.
- Описательный анализ данныхЧастотный анализ данных. Основы статистики. Меры средней тенденции. Меры разброса. Характеристики распределения значений переменной. Гистограмма. Работа с временными рядами. Подготовка данных для создания сводных таблиц. Группировка и агрегирование данных. Настройка сводных таблиц. Интерпретация значений в сводных таблицах. Представление сводных таблиц.
- Графический анализ данныхПостроение различных типов графиков. Настройка и редактирование графиков. Библиотека Mathplotlib. Сохранение графиков в разных форматах.
- Анализ взаимосвязей переменныхТаблица сопряжённости. Корреляционный анализ данных. Оценка силы и направления взаимосвязи. Графический анализ взаимосвязей.
- Сбор данных в сети ИнтернетИзвлечение данных из веб-страниц. Библиотека beautifulsoup.
Элементы контроля
- Аудиторная работа (АР)Задания, выполняемые на компьютере во время семинаров.
- Контрольная работа (КР)
- Домашнее задание (ДЗ)
- Экзамен (Э)Экзамен проводится в письменной форме. Экзамен проводится на платформе MS Teams (https://www.microsoft.com/ru-ru/microsoft-365/microsoft-teams/group-chat-software). К экзамену необходимо подключиться за 5 минут до начала. Компьютер студента должен удовлетворять требованиям: наличие рабочей камеры и микрофона, установленное приложение MS Teams. Для участия в экзамене студент обязан явиться на экзамен согласно точному расписанию и быть готовым отвечать на вопросы преподавателя с включённым микрофоном и камерой. Во время экзамена студентам запрещено пользоваться подсказками посторонних людей. Во время экзамена студентам разрешено задавать преподавателю уточняющие вопросы, если не понятно задание. Кратковременным нарушением связи во время экзамена считается нарушение связи менее 10 минут. Долговременным нарушением связи во время экзамена считается нарушение длительностью более 10 минут. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи.