• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2025/2026

Корпусная лингвистика

Статус: Маго-лего
Когда читается: 3, 4 модуль
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский

Программа дисциплины

Аннотация

Электронные корпусные ресурсы, включающие особым образом размеченные письменные, устные и мультимодальные языковые данные, являются важным источником эмпирической информации для фундаментальной и прикладной лингвистики. Этот курс предполагает углубленное изучение методов разработки дизайна корпуса, ручной, автоматизированной и автоматической лингвистически ориентированной разметки, количественной и качественной оценки корпусных компонентов, знакомство с инструментами индексации и поискового менеджмента. В курсе также будут рассматриваться современные методы автоматической очистки (дедупликации, распознавания "псевдотекста и т.п."), предобработки и разметки корпусов с использованием нейросетевых технологий, а также методы расширения текстовых данных за счет генерации искусственных примеров (аугментации корпусов) с использованием современных генеративных технологий.Особое внимание будет уделено совместимости форматов разметки, викификации и подключению других внешних ресурсов, особенностям конструирования корпусов сетевой коммуникации, учебных корпусов, исторических корпусов, параллельных корпусов, корпусов полевых данных.