• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2025/2026

SQL для работы с рыночными данными

Когда читается: 2-й курс, 1 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Контактные часы: 24

Программа дисциплины

Аннотация

Курс «SQL для работы с рыночными данными» формирует у студентов практические навыки проектирования и управления реляционными базами данных, а также эффективной работы с данными с помощью SQL. Особое внимание уделяется построению сложных запросов, нормализации данных и проектированию ER-диаграмм, необходимых для эффективной обработки большого объема данных и цифровой аналитики социальных и рыночных данных. В завершающей части курса студенты интегрируют SQL с аналитикой, выполняя финальный проект с использованием либо R, либо Python — по выбору, в зависимости от предпочтений и уровня подготовки. Курс ориентирован на реальные задачи обработки социологических и рыночных данных и позволяет освоить полный цикл работы с данными — от проектирования базы до анализа и визуализации.
Цель освоения дисциплины

Цель освоения дисциплины

  • Возможности проектирования реляционных баз данных для хранения и анализа социологических и рыночных данных, применив принципы концептуального моделирования (ER-диаграммы) и нормализации (до 3НФ).
  • Приобрести навыки настройки и управления реляционной СУБД (PostgreSQL) в локальной или облачной среде, включая создание, модификацию и проверку целостности структуры базы данных.
  • Формулировать и выполнять эффективные SQL-запросы любой сложности — от базовых выборок до аналитических операций с использованием оконных функций, CTE и сложных JOIN’ов.
  • Модифицировать данные в базе с использованием операций INSERT, UPDATE, DELETE, включая фильтрацию, транзакции и работу с ограничениями целостности.
  • Интегрировать SQL с языками анализа данных (R или Python) для извлечения, обработки и визуализации результатов анализа.
  • Получить навыки подготовки и представления аналитического отчёта на основе данных из реляционной базы, используя современные инструменты документирования (RMarkdown, Jupyter Notebook, PDF).
Планируемые результаты обучения

Планируемые результаты обучения

  • знание синтаксиса SQL, агрегационных функций, журналирование;
  • Умеет разарабатывать запросы с использованием языка SQL, реализующие алгоритмы, разработанные на основе операторов реляционной алгебны, включающие возможности связывания таблиц, отбора данных в соответствии с заданными критериями, использования для вычислений агрегатных функций и возможностей группировки данных, возможностей сортировки данных и использования вложенных запросов
  • Владение навыками формирования SQL-запросов к БД
  • Знать технологию проектирования сверху-вниз ER-диаграмм.
  • Студенты познакомятся и сформируют первичный опыт работы в среде R
  • Двоичная булева алгебра: множество элементов, множество операций. Определение и доказательство постулатов булевой алгебры. Применение булевой алгебры.
  • Знание основных возможностей системы PostgreSQL и расширений моделей данных и языков запросов, предоставляемые в этой системе.
  • Рассчитывать статистические критерии в среде R
  • Проводить регрессионный, факторный и кластерный анализы в среде R
  • выполняет анализ данных, используя окна и оконные функции в запросах на выборку
  • Умеет выполнять инфологическое проектирование баз данных методом «сущность-связь»
  • Получение системного представления об истории и классификации технологий проектирования баз данных.
  • Знание основных возможностей системы SQLite и расширений моделей данных и языков запросов, предоставляемые в этой системе.
  • Знание основных концепций и принципов реляционной теории.
  • Приобретение практических навыков записи, построения и анализа регрессионных моделей, выполненных в статистической среде R.
  • Приобретение практических навыков организации процедуры анализа статистических (социологических) данных на языке R.
  • Получение представления о формах и паттернах взаимодействия статистической среды R и СУБД с применением языка SQL.
  • Освоение основных компонент архитектуры СУБД. Понимание различных типов реляционных систем (на примере PostgreSQL и SQLite).
  • Выработка навыка установки и настройки среду для работы с обработкой цифровых данных, в том числе посредством SQL (DBeaver, PostgreSQL (доп.), SQLite, VSCode/VSCodium), а также сред программирования (Python или R).
  • Владение навыками подключения к базе данных и выполнения базовых команд SELECT.
  • Понимание основных понятий реляционной модели данных и их интерпретации в контексте социальных исследований.
  • Выработать практику построения ER-диаграммы с использованием нотаций Crow’s Foot или Chen на основе текстового описания предметной области.
  • Понимание принципов нормализации и целостности данных и способности применять их при анализе структуры таблиц.
  • Понимание основных концепций реляционной теории и принципов нормализации.
  • Умение выявлять аномалии в таблицах и приводить их к 3НФ (и далее).
  • Умение устанавливать связи между таблицами и обеспечивать целостность данных.
  • Выработка принципов модификации структуры базы данных в соответствии с изменениями в предметной области
  • Выполнение простых и сложных соединений таблиц (SELF JOIN, CROSS JOIN, множественные JOIN’ы) и коррелирующие подзапросы.
  • Выполнение полного спектра базовых запросов (SELECT, WHERE, FROM, LIKE, etc.) в различных конфигурациях.
  • Владение навыками модификации данных: вставка, обновление и удаление с использованием условий и соединений.
  • Понимание принципов безопасных изменений в базе данных с использованием транзакций.
  • Отработка технологии подключения R или Python к PostgreSQL и извлечения данных с помощью SQL-запросов.
  • Подготовка и визуализация результатов анализа с использованием современных инструментов (ggplot2, matplotlib/seaborn).
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Тема 01: Введение в СУБД: инструментальная среда, концептуальная схема курса
  • Тема 02: Логика построения баз данных. Роль ER-диаграмм как концептуальной схемы БД.
  • Тема 03: Нормализация данных. Реляционная теория и управление базой данных (DDL)
  • Тема 04. SQL-запросы: от базовых до аналитических (DML)
  • Тема 05: Построение аналитических пайплайнов: SQL + R/Python
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания (ДЗ1–ДЗ3)
    Серия из трёх индивидуальных домашних заданий, направленных на поэтапное освоение навыков проектирования и реализации реляционной базы данных. Задания охватывают ключевые этапы: построение ER-диаграммы, нормализацию данных и создание таблиц с использованием SQL (DDL). Каждое задание строится на предыдущем, формируя у студента целостное понимание цикла проектирования БД. Тематика — социологические и рыночные данные (опросы, панели, CRM).
  • неблокирующий Лабораторная работа
    Индивидуальное задание, направленное на проверку навыков построения и оптимизации SQL-запросов любой сложности. Студент работает с реальной или смоделированной базой данных (например, панельные опросы, рыночные исследования) и выполняет серию запросов: от базовых выборок и фильтрации до сложных соединений, агрегации, подзапросов, CTE и оконных функций. Задание имитирует практические задачи аналитика: выявление динамики, сегментация, обработка аномалий, сравнение групп. Работа сдается в виде SQL-файла с пронумерованными запросами, комментариями и краткими пояснениями логики. В качестве более сложного задания предполагается совместное использование R/Python с SQL для построения аналитических пайплайнов
  • неблокирующий Финальный проект
    Финальный проект представляет собой парную работу (до 2 человек), в рамках которой студенты реализуют полный цикл работы с данными: от проектирования реляционной базы данных (ER-диаграмма, нормализация) и создания таблиц в SQL до выполнения аналитических запросов и интеграции с R или Python для визуализации и подготовки отчёта; проект имитирует реальные задачи анализа рыночных и социологических данных, требует командной работы, демонстрирует освоение всех ключевых навыков курса и завершается защитой с презентацией результатов.
  • неблокирующий Посещаемость онлайн-занятий
    Активность на семинаре, факт посещения семинаров. В рамках курса не предоставляются/не гарантируются (в обязательном порядке) видеозаписи занятий. В обязательном порядке предоставляются дополнительные видеоматериалы по темам семинаров.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 1st module
    0.3 * Домашние задания (ДЗ1–ДЗ3) + 0.25 * Лабораторная работа + 0.1 * Посещаемость онлайн-занятий + 0.35 * Финальный проект
Список литературы

Список литературы

Рекомендуемая дополнительная литература

  • SQL. Сборник рецептов. — 2-е изд.: Пер. с англ. - 978-5-9775-6759-6 - Молинаро Э., Грааф Р. - 2022 - Санкт-Петербург: БХВ-Петербург - https://ibooks.ru/bookshelf/380028 - 380028 - iBOOKS

Авторы

  • Десятова Мария Ивановна
  • Пашков Станислав Георгиевич