• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2025/2026

Научно-исследовательский семинар "Программирование на R для филологов"

Статус: Курс обязательный (Русская литература и компаративистика)
Когда читается: 1-й курс, 1, 2 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 3
Контактные часы: 32

Программа дисциплины

Аннотация

Курс представляет собой введение в использование языка программирования R для филологических дисциплин. R — это инструмент полного цикла, позволяющий полностью реализовать цифровой проект, от сбора и распознавания данных до презентации результата. В рамках курса студенты освоят контроль версий с Git, научатся импортировать, анализировать и визуализировать данные. Особое внимание будет уделено лингвистическим методам, таким как лемматизация и частеречная разметка, а также стилометрическому анализу. Мы изучим возможности применения сетевого анализа и тематического моделирования в филологических дисциплинах и научимся самостоятельно применять один из этих методов (по выбору). Завершающие темы курса охватывают работу с разметкой XML TEI и создание сайта с помощью публикационной системы Quarto. К концу курса студенты будут готовы представить свой первый цифровой проект, продемонстрировав навыки использования R на всех этапах исследовательского процесса. Особенностью курса является работа с исключительно гуманитарными данными (датасеты Пушкинского дома, драматический корпус Dracor и т.п.) в привязке к конкретным исследовательским задачам из области филологии.
Цель освоения дисциплины

Цель освоения дисциплины

  • Понимать основы языка R и среды RStudio; писать воспроизводимые скрипты и ноутбуки.
  • Работать с системой контроля версий Git/GitHub для ведения и публикации проектов.
  • Импортировать, очищать и преобразовывать табличные данные с использованием пакетов tidyverse.
  • Проводить разведывательный анализ данных и строить информативные визуализации в ggplot2.
  • Применять лингвистические методы обработки текста: лемматизацию и частеречную разметку (udpipe).
  • Выполнять стилометрический анализ корпусов текстов с помощью пакета stylo.
  • Читать, редактировать и валидировать разметку XML TEI; извлекать из нее структуры и метаданные.
  • Публиковать результаты исследования: отчеты и сайты в Quarto, размещение на RPubs и GitHub Pages.
  • Работать с гуманитарными корпусами (например, датасеты Пушкинского дома, Dracor) и соотносить методы анализа с конкретными филологическими задачами.
Планируемые результаты обучения

Планируемые результаты обучения

  • Навыки работы в R и RStudio. Контроль версий с Git.
  • Умение преобразовывать и обобщать данные, знание основных пакетов библиотеки tidyverse
  • Знакомство с принципами визуализации данных и библиотекой ggplot2
  • Частеречная разметка и синтаксический анализ текста
  • Владение методами автоматической классификации текстов
  • Навык работы с регулярными выражениями
  • Умение работать с разметкой XML, редактирование разметки и парсинг данных
  • Опыт создания веб-страницы или сайта
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Установка R, RStudio. Начало работы. Контроль версий.
  • Импорт табличных данных. Библиотека Tidyverse.
  • Разведывательный анализ данных. Визуализации с ggplot2.
  • Лемматизация и частеречная разметка с udpipe
  • Стилометрический анализ в stylo
  • Регулярные выражения
  • Разметка XML TEI. Чтение и редактирование XML-файлов
  • Публикационная система Quarto. RPubs, GitHub Pages
Элементы контроля

Элементы контроля

  • неблокирующий Домашние работы
  • неблокирующий Домашние работы
  • неблокирующий Лабораторная работа
  • неблокирующий Лабораторная работа
  • неблокирующий Проект
  • неблокирующий Проект
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    0.2 * Домашние работы + 0.2 * Домашние работы + 0.1 * Лабораторная работа + 0.1 * Лабораторная работа + 0.2 * Проект + 0.2 * Проект
Список литературы

Список литературы

Рекомендуемая основная литература

  • Advanced R, Wickham, H., 2014
  • ggplot2 : elegant graphics for data analysis, Wickham, H., 2009
  • Matt Wiley, & Joshua F. Wiley. (2019). Advanced R Statistical Programming and Data Models : Analysis, Machine Learning, and Visualization. Apress.
  • Pace L., Hlynka M. Beginning R an introduction to statistical programming. New York: Apress, 2012.
  • R for data science : import, tidy, transform, visualize, and model data, Wickham, H., 2017
  • R for data science : Import, tidy, transform, visualize, and model data, Wickham, H., 2017
  • Статистический анализ и визуализация данных с помощью R, Мастицкий, С. Э., 2015

Рекомендуемая дополнительная литература

  • Текст майнинг. Интеллектуальный анализ текста : дизайн исследований, сбор данных и методы анализа, Игнатов, Г., 2021

Авторы

  • Алиева Ольга Валерьевна