• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2025/2026

Прикладной анализ многомерных и потоковых социально-экономических данных на языке R

Статус: Курс обязательный (Социология)
Когда читается: 4-й курс, 1, 2 модуль
Охват аудитории: для своего кампуса
Язык: русский

Программа дисциплины

Аннотация

Курс предлагает слушателям углубленное знакомство с основными аспектами работы в статистической среде R (CRAN R), применяемой для решения задач социально-экономических исследований и обработки естественного языка в рамках качественных исследований. В ходе обучения акцентируется внимание на принципах организации программного кода, системах типов данных и основах функционального программирования. Основное внимание уделяется прикладным методам статистического анализа, включая работу с микроданными (социология) и макроданными (социально-экономическая статистика). Рассматриваются актуальные вопросы статистической теории и прикладного анализа данных, введения в Байесовскую статистики. Отдельно рассмотрена теория графов, которая позволяет исследовать возможности количественно-качественных методов обработки структурированных текстовых и сетевых данных. Кроме того, курс охватывает продвинутые методы анализа данных (машинное обучение, алгоритмы кластеризации), вопросы хранения и обработки больших объемов данных с использованием SQL-подходов, на примере реляционных баз данных, таких как SQLite. Слушатели изучат техники предсказательной аналитики, которые помогут в принятии обоснованных решений на основе полученных результатов. В процессе изучения материала акцентируется внимание на организации аналитических процессов ("пайплайнов"), формулировании исследовательских гипотез, выявлении социально-экономических проблем и определении инсайтов для оперативной аналитики. В качестве источников данных рассматриваются массивы социологических данных из ЕАЭСД ВШЭ, RLMS, Росстата, баз данных СМИ.
Цель освоения дисциплины

Цель освоения дисциплины

  • Применять язык R для воспроизводимого анализа социально-экономических данных, включая разведочный анализ, визуализацию и оформление отчётов в формате R Markdown.
  • Извлекать и обрабатывать данные из реляционных баз данных с помощью SQL, интегрировать их в аналитические пайплайны на R и использовать в социальных исследованиях.
  • Выявлять скрытые структуры в данных с помощью методов снижения размерности (PCA), факторного (EFA, CFA) и кластерного анализа, интерпретируя результаты в контексте социальных наук.
  • Анализировать качественные текстовые данные с применением методов NLP: тематического моделирования (LDA), анализа тональности и построения семантических сетей.
  • Строить и интерпретировать регрессионные модели (линейные, логистические), оценивать их качество и представлять результаты в публикационном формате.
  • Анализировать структуру социальных и семантических сетей с использованием пакета igraph: вычислять центральность, выделять сообщества и визуализировать связи между социальными акторами или понятиями.
  • Решать прикладные задачи анализа данных, комбинируя методы количественного, текстового и сетевого анализа в едином воспроизводимом рабочем процессе.
Планируемые результаты обучения

Планируемые результаты обучения

  • Знает отличия между моделями эксплораторного и конфирматорного факторного анализа, кластерный анализ, многомерное шкалирование. Умеет проводить эксплораторный факторный анализ.
  • Умеет выполнять предобработку данных и разведочный анализ данных с помощью релевантного программного обеспечения
  • Осуществляет анализ текстовой информации с использованием технологии Text Mining
  • Способен проводить регрессионный анализ и оценивать качество полученных моделей. Знает ограничения и область применения регрессионных моделей.
  • Освоение многомерных статистических данных, их представление и обобщающих характеристик
  • Владеет общими понятиями базы данных. Владеет понятием СУБД в прикладных системах. Владеет общими понятиями реляционной модели.
  • Владеет навыками расчета корреляционных статистик (включая факторный анализ) в R
  • Выполняет кластерный анализ и визуализирует результат
  • Умеет проводить корреляционно-регрессионный анализ данных
  • Формулировка содержательной задачи на text mining и обоснование подходящего для её решения метода.
  • Подготовленный для text mining корпус документов, в т.ч. предобработанный.
  • Получить системное представление о программном инструментарии, необходимом для выполнения широкого спектра научно-прикладных задач.
  • Получить базовое представление о системном устройстве ЭВМ, необходимое для понимания принципов работы ключевого инструментария.
  • Получение практических и методических принципов организации процедуры раннего анализа данных.
  • Применение навыков ad-hoc постановки задач исследования и выбора расчетных методов ее реализации
  • Получение системной и последовательной практики проверки параметрических и непараметрических гипотез для дальнейшего принятия решения по анализу данных.
  • Получение практических и методических принципов организации процедуры факторного анализа.
  • Получение представления о роли классических и актуальных социологических теорий/подходов в анализе социальных систем и социальных групп.
  • Знание основных возможностей системы SQLite и расширений моделей данных и языков запросов, предоставляемые в этой системе.
  • Применяет базовые инструменты RStudio для создания и управления проектами в R.
  • Создаёт воспроизводимые аналитические отчёты с использованием R Markdown.
  • Настраивает рабочую среду R с предустановленными пакетами и шаблонами.
  • Проводит разведочный анализ данных с оценкой целостности, распределений и выбросов.
  • Визуализирует структуру данных и взаимосвязи переменных с помощью ggplot2 и VIM.
  • Оценивает пригодность данных для дальнейшего статистического анализа.
  • Формулирует SQL-запросы для извлечения, фильтрации и агрегации данных из реляционных баз.
  • Интегрирует данные из SQL-баз в R с использованием пакетов DBI и RSQLite.
  • Анализирует социологические массивы, извлечённые из баз данных (RLMS, Росстат и др.).
  • Применяет метод главных компонент (PCA) и эксплораторный факторный анализ (EFA) для выявления скрытых структур.
  • Строит и интерпретирует факторные решения с использованием вращения и критериев Кайзера/каменистой осыпи.
  • Оценивает качество факторной модели и проверяет гипотезы о структуре данных с помощью CFA (lavaan).
  • Выполняет кластеризацию данных с помощью методов k-means, иерархического и плотностного анализа.
  • Оценивает качество кластеров с использованием силуэта, gap statistic и визуальных методов.
  • Интерпретирует кластеры в социальном контексте и визуализирует их с помощью factoextra.
  • Строит и диагностирует линейные и логистические регрессионные модели в R.
  • Применяет автоматический отбор переменных (stepAIC) и сравнивает модели по информационным критериям (AIC/BIC).
  • Интерпретирует результаты регрессии (включая odds ratio и предельные эффекты) и оформляет их в виде публикационных таблиц.
  • Реализует базовые модели машинного обучения (линейные модели, случайный лес) с помощью tidymodels.
  • Оценивает качество моделей с использованием кросс-валидации и метрик (RMSE, accuracy).
  • Сравнивает эффективность моделей и делает выводы о применимости в социальных прогнозах.
  • Получает представление о современных фреймворках для проведения процедур машинного обучения (caret, keras).
  • Обрабатывает текстовые данные: очищает, токенизирует и векторизует с помощью quanteda или tm.
  • Применяет тематическое моделирование (LDA) к корпусам открытых ответов и интерпретирует выявленные темы.
  • Анализирует тональность текстов и визуализирует семантические структуры (облака слов, тематические карты).
  • Строит семантические сети на основе текстовых данных (co-occurrence, PMI) с использованием igraph.
  • Анализирует структуру сети: вычисляет центральность, выделяет кластеры и сообщества.
  • Визуализирует графы и интерпретирует их как модели дискурса или когнитивной структуры.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • R01: Старт в R: проекты, окружение и R Markdown
  • R02: Разведочный анализ данных (EDA): структура, распределения и визуализация
  • R03: SQL в анализе данных: от запросов к интеграции с R
  • R04: Факторный и кластерный анализ: от PCA до подтверждения структуры
  • R05: Кластерный анализ: от k-means до байесовских моделей
  • R06: Регрессионный анализ: от линейной модели до логистики и отбора переменных
  • R07: NLP и анализ качественных данных: от текста к анализу
  • RA08: Машинное обучение и предсказательная аналитика (опционально)
  • R09: Анализ графов и социальных сетей: от текстов к семантическим сетям
Элементы контроля

Элементы контроля

  • неблокирующий Активность на семинаре
    Оценка включает посещаемость (10%) и активное участие в занятиях (10%). Студенты получают баллы за присутствие, решение мини-задач в ходе семинаров, задание содержательных вопросов, помощь одногруппникам и участие в обсуждениях. Форма контроля направлена на поддержание вовлечённости, своевременное усвоение материала и развитие навыков командной работы.
  • неблокирующий Домашние задания
    Система из трёх заданий: два обязательных (по R и SQL) и одно по выбору (NLP, анализ сетей или временные ряды). Цель — закрепить базовые навыки и дать возможность углубиться в тему, релевантную диплому. Все задания выполняются в R Markdown, оцениваются по качеству кода, интерпретации и воспроизводимости.
  • неблокирующий Лабораторные работы
    Две глубокие практические работы. Первая (12,5%) — обязательная: применение многомерных методов (PCA, EFA, CFA, кластеризация). Вторая (12,5%) — по выбору: либо анализ текстов и сетей, либо регрессионный анализ и машинное обучение. Формат — R Markdown/Jupyter. Акцент на качество интерпретации, а не только количество применённых методов.
  • неблокирующий Финальный проект
    Итоговая форма контроля, реализуемая в командах до 4 человек. Проект должен интегрировать методы, освоенные в лабораторных и домашних заданиях. Тема — по выбору (например, анализ доверия к власти, медиаупотребление, открытые ответы). Оценивается по качеству анализа, логике исследования и воспроизводимости (R Markdown + Презентация). При работе над финальным проектом защита обязательна. Предусмотрена двух-ступенчатая система оценки проекта.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    0.2 * Активность на семинаре + 0.25 * Домашние задания + 0.25 * Лабораторные работы + 0.3 * Финальный проект
Список литературы

Список литературы

Рекомендуемая основная литература

  • 9781491981627 - Silge, Julia; Robinson, David - Text Mining with R : A Tidy Approach - 2017 - O'Reilly Media - http://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=1533983 - nlebk - 1533983
  • Fox, J., Jr, & Weisberg, H. S. (2010). An R Companion to Applied Regression. Thousand Oaks: SAGE Publications, Inc. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1236075
  • Malik, U., Goldwasser, M., & Johnston, B. (2019). SQL for Data Analytics : Perform Fast and Efficient Data Analysis with the Power of SQL. Packt Publishing.
  • Myatt, G. J., & Johnson, W. P. (2014). Making Sense of Data I : A Practical Guide to Exploratory Data Analysis and Data Mining (Vol. Second edition). Hoboken, New Jersey: Wiley. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=809795

Авторы

  • Пашков Станислав Георгиевич