Магистратура
2025/2026




Научно-исследовательский семинар "Программирование на R для филологов"
Статус:
Курс обязательный (Русская литература и компаративистика)
Кто читает:
Школа филологических наук
Где читается:
Факультет гуманитарных наук
Когда читается:
1-й курс, 1, 2 модуль
Охват аудитории:
для всех кампусов НИУ ВШЭ
Преподаватели:
Алиева Ольга Валерьевна
Язык:
русский
Кредиты:
3
Контактные часы:
32
Программа дисциплины
Аннотация
Курс представляет собой введение в использование языка программирования R для филологических дисциплин. R — это инструмент полного цикла, позволяющий полностью реализовать цифровой проект, от сбора и распознавания данных до презентации результата. В рамках курса студенты освоят контроль версий с Git, научатся импортировать, анализировать и визуализировать данные. Особое внимание будет уделено лингвистическим методам, таким как лемматизация и частеречная разметка, а также стилометрическому анализу. Мы изучим возможности применения сетевого анализа и тематического моделирования в филологических дисциплинах и научимся самостоятельно применять один из этих методов (по выбору). Завершающие темы курса охватывают работу с разметкой XML TEI и создание сайта с помощью публикационной системы Quarto. К концу курса студенты будут готовы представить свой первый цифровой проект, продемонстрировав навыки использования R на всех этапах исследовательского процесса. Особенностью курса является работа с исключительно гуманитарными данными (датасеты Пушкинского дома, драматический корпус Dracor и т.п.) в привязке к конкретным исследовательским задачам из области филологии.
Цель освоения дисциплины
- Понимать основы языка R и среды RStudio; писать воспроизводимые скрипты и ноутбуки.
- Работать с системой контроля версий Git/GitHub для ведения и публикации проектов.
- Импортировать, очищать и преобразовывать табличные данные с использованием пакетов tidyverse.
- Проводить разведывательный анализ данных и строить информативные визуализации в ggplot2.
- Применять лингвистические методы обработки текста: лемматизацию и частеречную разметку (udpipe).
- Выполнять стилометрический анализ корпусов текстов с помощью пакета stylo.
- Читать, редактировать и валидировать разметку XML TEI; извлекать из нее структуры и метаданные.
- Публиковать результаты исследования: отчеты и сайты в Quarto, размещение на RPubs и GitHub Pages.
- Работать с гуманитарными корпусами (например, датасеты Пушкинского дома, Dracor) и соотносить методы анализа с конкретными филологическими задачами.
Планируемые результаты обучения
- Навыки работы в R и RStudio. Контроль версий с Git.
- Умение преобразовывать и обобщать данные, знание основных пакетов библиотеки tidyverse
- Знакомство с принципами визуализации данных и библиотекой ggplot2
- Частеречная разметка и синтаксический анализ текста
- Владение методами автоматической классификации текстов
- Навык работы с регулярными выражениями
- Умение работать с разметкой XML, редактирование разметки и парсинг данных
- Опыт создания веб-страницы или сайта
Содержание учебной дисциплины
- Установка R, RStudio. Начало работы. Контроль версий.
- Импорт табличных данных. Библиотека Tidyverse.
- Разведывательный анализ данных. Визуализации с ggplot2.
- Лемматизация и частеречная разметка с udpipe
- Стилометрический анализ в stylo
- Регулярные выражения
- Разметка XML TEI. Чтение и редактирование XML-файлов
- Публикационная система Quarto. RPubs, GitHub Pages
Промежуточная аттестация
- 2025/2026 2nd module0.2 * Домашние работы + 0.2 * Домашние работы + 0.1 * Лабораторная работа + 0.1 * Лабораторная работа + 0.2 * Проект + 0.2 * Проект
Список литературы
Рекомендуемая основная литература
- Advanced R, Wickham, H., 2014
- ggplot2 : elegant graphics for data analysis, Wickham, H., 2009
- Matt Wiley, & Joshua F. Wiley. (2019). Advanced R Statistical Programming and Data Models : Analysis, Machine Learning, and Visualization. Apress.
- Pace L., Hlynka M. Beginning R an introduction to statistical programming. New York: Apress, 2012.
- R for data science : import, tidy, transform, visualize, and model data, Wickham, H., 2017
- R for data science : Import, tidy, transform, visualize, and model data, Wickham, H., 2017
- Статистический анализ и визуализация данных с помощью R, Мастицкий, С. Э., 2015
Рекомендуемая дополнительная литература
- Текст майнинг. Интеллектуальный анализ текста : дизайн исследований, сбор данных и методы анализа, Игнатов, Г., 2021