• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2025/2026

Анализ сложноструктурированных данных, сетей и текстов

Когда читается: 2-й курс, 1, 2 модуль
Охват аудитории: для своего кампуса
Язык: русский
Контактные часы: 40

Программа дисциплины

Аннотация

Курс по анализу сложноструктурированных данных, сетей и текстов создан с целью ознакомления студентов с методологией, методами и программным инструментарием, сформированным в вычислительных социальных науках для анализа сетевых и текстовых данных, по своей природе являющихся данными с комплексной (сложной) структурой. В курсе будут разобраны методы сбора, предобработки, анализа и визуализации сложноструктурированных данных, с акцентом на сетевом анализе текстовой информации. В первом модуле после введения в анализ неструктурированных данных слушатели познакомятся с инструментами для предобработки текста, рассмотрят особенности выявления скрытых тем, кластеризации и классификации текстов, а также рассмотрят вопросы извлечения именованных сущностей и отношений между ними, составляющих основу сетевой структуры. Во втором модуле слушатели познакомятся с базовыми понятиями анализа социальных сетей и основными метриками, применяемыми в сетевом анализе для изучения социальных структур на глобальном и локальном уровнях для выделения важных узлов, диад, триад и сплоченных подгрупп в сети. Слушатели научатся основам построения сетевых данных и их последующей обработки в программах для анализа и визуализации сетевых данных. После прохождения курса у студентов будут развиты навыки работы со сложноструктурированными данными, достаточные для проведения самостоятельного анализа текстовых данных, в т.ч. с применением методологии сетевого анализа. Слушатели будут иметь возможность применить полученные навыки для сетевого анализа сложноструктурированных текстовых данных. Для работы применяется языки программирования Python и программы для анализа и визуализации сетей Pajek / Gephi.
Цель освоения дисциплины

Цель освоения дисциплины

  • Цель курса по анализу сложноструктурированных данных, сетей и текстов - ознакомление студентов с методологией, методами и программным инструментарием, сформированным в вычислительных социальных науках для анализа сетевых и текстовых данных, по своей природе являющихся данными с комплексной (сложной) структурой. В результате освоения дисциплины у студентов будут развиты навыки работы со сложноструктурированными данными, достаточные для проведения самостоятельного анализа текстовых данных, в т.ч. с применением методологии сетевого анализа. Слушатели будут знакомы с основными методами сбора, предобработки, анализа и визуализации сложноструктурированных данных, с акцентом на сетевом анализе текстовой информации. Слушатели будут иметь возможность применить полученные навыки на практике для сетевого анализа сложноструктурированных текстовых данных. В качестве консультантов студентам будут предложены консультанты из числа сотрудников МЛ ПСА, которые смогут дать рекомендации о применимости сетевого и иных видов анализа в различных исследовательских проектах. Для работы применяется язык программирования Python и программы для анализа и визуализации сетей Pajek / Gephi. Предполагается, что студенты имеют начальный уровень знаний программного обеспечения Python.
Планируемые результаты обучения

Планируемые результаты обучения

  • Применять методы предобработки и анализа текстовых данных с использованием инструментов (spaCy, NLTK, Gensim, TF-IDF) и визуализировать результаты.
  • Использовать методы тематического моделирования и кластеризации текстов (LDA, BERTopic, k-means, UMAP) для выявления скрытых тем и группировки документов.
  • Работать с нейросетевыми языковыми моделями (BERT, GPT, Transformer), понимать их математические основы и применять для классификации, регрессии и генерации текстов.
  • Оценивать качество NLP-моделей, подбирать метрики для задач классификации, извлечения сущностей (NER) и анализа тональности.
  • Строить и анализировать сетевые структуры, понимать их типы (социальные, информационные, графы знаний) и ключевые характеристики (центральность, плотность, кластеризация).
  • Применять методы сетевого анализа (вычисление центральностей, поиск сообществ, анализ триад) с использованием Python-библиотек (NetworkX, igraph, Gephi).
  • Визуализировать сетевые данные с учетом лучших практик, используя инструменты (Gephi, PyVis, matplotlib).
  • Интерпретировать результаты сетевого анализа в контексте социологических теорий (слабые связи, структурные дыры, гомофилия).
  • Работать с реальными данными (соцсети, корпуса текстов, графы), проводить проекты полного цикла – от сбора и очистки данных до интерпретации результатов.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение в анализ неструктурированных данных, обсуждение структуры курса и правил его прохождения
  • Math behind simple language models
  • Инструменты для предобработки текста
  • Выявление скрытых тем и кластеризация текстов
  • Math behind large language models
  • Классификация текстов
  • Извлечение именованных сущностей, отношений, entity linking
  • Введение в сетевой анализ
  • Данные для сетевого анализа
  • Программы для анализа и визуализации социальных сетей
  • Глобальные сетевые характеристики (дескриптивный анализ)
  • Локальные сетевые характеристики: важные узлы в сети
  • Локальные сетевые характеристики: диады и триады в сети
  • Локальные сетевые характеристики: сплоченные подгруппы в сети
  • Продвинутая визуализация сетевых данных
  • Презентации проектов студентов
Элементы контроля

Элементы контроля

  • неблокирующий Домашние задания
    Два домашних задания - по одному по каждому модулю
  • неблокирующий Проект
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    0.25 * Домашние задания + 0.25 * Домашние задания + 0.5 * Проект
Список литературы

Список литературы

Рекомендуемая основная литература

  • Carrington, P. J., Scott, J., & Wasserman, S. (2005). Models and Methods in Social Network Analysis. Cambridge: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=132264
  • Kolaczyk, E. D., & Csárdi, G. (2014). Statistical Analysis of Network Data with R. New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=783200
  • Luke, D. A. . V. (DE-588)130032344, (DE-627)488060184, (DE-576)297960504, aut. (2015). A user’s guide to network analysis in R Douglas A. Luke. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edswao&AN=edswao.454121474
  • Nooy, W. de, Mrvar, A., & Batagelj, V. (2005). Exploratory Social Network Analysis with Pajek. New York: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=138973

Рекомендуемая дополнительная литература

  • Nooy, W. de, Batagelj, V., & Mrvar, A. (2011). Exploratory Social Network Analysis with Pajek: Vol. Rev. and expanded 2nd ed. Cambridge University Press.

Авторы

  • Мальцева Дарья Васильевна
  • Десятова Мария Ивановна