Магистратура
2025/2026




Анализ сложноструктурированных данных, сетей и текстов
Статус:
Курс по выбору (Социология публичной сферы и цифровая аналитика)
Кто читает:
Департамент социологии
Где читается:
Факультет социальных наук
Когда читается:
2-й курс, 1, 2 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Семенова Анна Михайловна
Язык:
русский
Контактные часы:
40
Программа дисциплины
Аннотация
Курс по анализу сложноструктурированных данных, сетей и текстов создан с целью ознакомления студентов с методологией, методами и программным инструментарием, сформированным в вычислительных социальных науках для анализа сетевых и текстовых данных, по своей природе являющихся данными с комплексной (сложной) структурой. В курсе будут разобраны методы сбора, предобработки, анализа и визуализации сложноструктурированных данных, с акцентом на сетевом анализе текстовой информации. В первом модуле после введения в анализ неструктурированных данных слушатели познакомятся с инструментами для предобработки текста, рассмотрят особенности выявления скрытых тем, кластеризации и классификации текстов, а также рассмотрят вопросы извлечения именованных сущностей и отношений между ними, составляющих основу сетевой структуры. Во втором модуле слушатели познакомятся с базовыми понятиями анализа социальных сетей и основными метриками, применяемыми в сетевом анализе для изучения социальных структур на глобальном и локальном уровнях для выделения важных узлов, диад, триад и сплоченных подгрупп в сети. Слушатели научатся основам построения сетевых данных и их последующей обработки в программах для анализа и визуализации сетевых данных. После прохождения курса у студентов будут развиты навыки работы со сложноструктурированными данными, достаточные для проведения самостоятельного анализа текстовых данных, в т.ч. с применением методологии сетевого анализа. Слушатели будут иметь возможность применить полученные навыки для сетевого анализа сложноструктурированных текстовых данных. Для работы применяется языки программирования Python и программы для анализа и визуализации сетей Pajek / Gephi.
Цель освоения дисциплины
- Цель курса по анализу сложноструктурированных данных, сетей и текстов - ознакомление студентов с методологией, методами и программным инструментарием, сформированным в вычислительных социальных науках для анализа сетевых и текстовых данных, по своей природе являющихся данными с комплексной (сложной) структурой. В результате освоения дисциплины у студентов будут развиты навыки работы со сложноструктурированными данными, достаточные для проведения самостоятельного анализа текстовых данных, в т.ч. с применением методологии сетевого анализа. Слушатели будут знакомы с основными методами сбора, предобработки, анализа и визуализации сложноструктурированных данных, с акцентом на сетевом анализе текстовой информации. Слушатели будут иметь возможность применить полученные навыки на практике для сетевого анализа сложноструктурированных текстовых данных. В качестве консультантов студентам будут предложены консультанты из числа сотрудников МЛ ПСА, которые смогут дать рекомендации о применимости сетевого и иных видов анализа в различных исследовательских проектах. Для работы применяется язык программирования Python и программы для анализа и визуализации сетей Pajek / Gephi. Предполагается, что студенты имеют начальный уровень знаний программного обеспечения Python.
Планируемые результаты обучения
- Применять методы предобработки и анализа текстовых данных с использованием инструментов (spaCy, NLTK, Gensim, TF-IDF) и визуализировать результаты.
- Использовать методы тематического моделирования и кластеризации текстов (LDA, BERTopic, k-means, UMAP) для выявления скрытых тем и группировки документов.
- Работать с нейросетевыми языковыми моделями (BERT, GPT, Transformer), понимать их математические основы и применять для классификации, регрессии и генерации текстов.
- Оценивать качество NLP-моделей, подбирать метрики для задач классификации, извлечения сущностей (NER) и анализа тональности.
- Строить и анализировать сетевые структуры, понимать их типы (социальные, информационные, графы знаний) и ключевые характеристики (центральность, плотность, кластеризация).
- Применять методы сетевого анализа (вычисление центральностей, поиск сообществ, анализ триад) с использованием Python-библиотек (NetworkX, igraph, Gephi).
- Визуализировать сетевые данные с учетом лучших практик, используя инструменты (Gephi, PyVis, matplotlib).
- Интерпретировать результаты сетевого анализа в контексте социологических теорий (слабые связи, структурные дыры, гомофилия).
- Работать с реальными данными (соцсети, корпуса текстов, графы), проводить проекты полного цикла – от сбора и очистки данных до интерпретации результатов.
Содержание учебной дисциплины
- Введение в анализ неструктурированных данных, обсуждение структуры курса и правил его прохождения
- Math behind simple language models
- Инструменты для предобработки текста
- Выявление скрытых тем и кластеризация текстов
- Math behind large language models
- Классификация текстов
- Извлечение именованных сущностей, отношений, entity linking
- Введение в сетевой анализ
- Данные для сетевого анализа
- Программы для анализа и визуализации социальных сетей
- Глобальные сетевые характеристики (дескриптивный анализ)
- Локальные сетевые характеристики: важные узлы в сети
- Локальные сетевые характеристики: диады и триады в сети
- Локальные сетевые характеристики: сплоченные подгруппы в сети
- Продвинутая визуализация сетевых данных
- Презентации проектов студентов
Промежуточная аттестация
- 2025/2026 2nd module0.25 * Домашние задания + 0.25 * Домашние задания + 0.5 * Проект
Список литературы
Рекомендуемая основная литература
- Carrington, P. J., Scott, J., & Wasserman, S. (2005). Models and Methods in Social Network Analysis. Cambridge: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=132264
- Kolaczyk, E. D., & Csárdi, G. (2014). Statistical Analysis of Network Data with R. New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=783200
- Luke, D. A. . V. (DE-588)130032344, (DE-627)488060184, (DE-576)297960504, aut. (2015). A user’s guide to network analysis in R Douglas A. Luke. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edswao&AN=edswao.454121474
- Nooy, W. de, Mrvar, A., & Batagelj, V. (2005). Exploratory Social Network Analysis with Pajek. New York: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=138973
Рекомендуемая дополнительная литература
- Nooy, W. de, Batagelj, V., & Mrvar, A. (2011). Exploratory Social Network Analysis with Pajek: Vol. Rev. and expanded 2nd ed. Cambridge University Press.