Магистратура
2025/2026



Введение в корпусную лингвистику
Статус:
Курс обязательный (Языковая политика в условиях этнокультурного разнообразия)
Кто читает:
Школа филологических наук
Где читается:
Факультет гуманитарных наук
Когда читается:
2-й курс, 3 модуль
Онлайн-часы:
20
Охват аудитории:
для всех кампусов НИУ ВШЭ
Язык:
русский
Кредиты:
3
Контактные часы:
6
Программа дисциплины
Аннотация
Автор курса - Анна Левинзон - ставит перед собой две главные цели. Во-первых, представить аудитории корпусную лингвистику – науку, развивающуюся в нашей стране всего полтора десятилетия, но давно использующуюся в обучении языкам, теории и практике перевода и литературоведении во всем мире. Корпусная лингвистика будет рассмотрена, с одной стороны, как отдельная область знания, с другой – как набор методов, которые могут быть применены в самых разных научных и практических областях. Во-вторых, мы предлагаем целый набор удачных практик, способных повысить эффективность работы с учениками и текстами. В процессе освоения курса, таким образом, студенты получат ряд практических навыков от навыка сбора информации в корпусах до умения составлять упражнения с использованием корпусных данных.
Цель освоения дисциплины
- Сформировать у студентов системное представление о корпусной лингвистике как научной дисциплине: её понятийном аппарате, истории становления, типологии корпусов и принципах их построения.
- Развить практические навыки работы с ведущими корпусными ресурсами русского и английского языков — прежде всего с Национальным корпусом русского языка, — включая освоение поисковых инструментов и интерпретацию полученных данных.
- Научить студентов применять корпусные методы для решения исследовательских задач в области лексикологии, грамматики, стилистики и других разделов лингвистики.
Планируемые результаты обучения
- Объяснить, что такое Digital Humanities и чем интернет как среда данных отличается от «оцифрованных» традиционных источников
- Назвать и кратко охарактеризовать базовый набор цифровых методов в гуманитарных исследованиях (корпуса, визуализация, сетевой анализ, GIS) и области их применимости.
- Оценивать качество интернет-данных для исследования: репрезентативность, смещения, воспроизводимость, этические и правовые ограничения
- Знать определение понятия «лингвистический корпус текстов», его основные свойства (репрезентативность, сбалансированность, наличие разметки) и отличие корпуса от смежных понятий — базы данных, архива и произвольного веб-собрания текстов.
- Уметь характеризовать и сопоставлять различные типы языковых данных с точки зрения их пригодности для лингвистического исследования, а также критически оценивать возможности и ограничения использования интернета в качестве корпуса.
- Владеть базовым понятийным аппаратом корпусной лингвистики, необходимым для дальнейшего изучения дисциплины: оперировать терминами «разметка», «репрезентативность», «сбалансированность» в контексте описания и анализа конкретных корпусов (в том числе НКРЯ).
- Знать основные этапы становления корпусной лингвистики — от средневековых конкордансов и словарных картотек докомпьютерной эпохи до первых машиночитаемых корпусов второй половины XX века.
- Владеть представлением об историческом контексте возникновения корпусной лингвистики как научной дисциплины и понимать, каким образом развитие вычислительной техники определило переход от ручных методов работы с текстом к автоматизированным корпусным исследованиям.
- Воспроизводить: студент будет называть основные критерии классификации корпусов (по типу данных, хронологии, назначению, параллельности и типу разметки) и перечислять виды корпусов, соответствующие каждому критерию
- Анализировать: студент будет различать и классифицировать конкретные корпусные ресурсы (НКРЯ, BNC, параллельные корпуса) по типологическим категориям, а также выявлять их структурные и функциональные особенност
- Воспроизводить: студент будет называть ведущие корпуса английского и русского языков, формулировать их ключевые характеристики и перечислять основные поисковые инструменты НКРЯ.
- ориентируется в основных методах корпусных исследований
- разграничивает подходы corpus-based и corpus-driven
- ориентируется в основных направлениях и принципах корпусного преподавания
- азграничивает прямой и опосредованный способы вовлечения обучающихся в работу с корпусом
- Применяет корпусные методы в междисциплинарных исследованиях и опыте их применения в образовании, литературоведении, юриспруденции и межкультурной коммуникации
- размечать большие объемы данных с помощью современных инструментов
Содержание учебной дисциплины
- Интернет и развитие гуманитарного знания
- Что такое «корпус»?
- Возникновение и развитие корпусной лингвистики
- Виды корпусов
- Поиск информации в корпусе
- Разметка корпусов
- Исследование языка с помощью лингвистического корпуса
- Корпусное преподавание
- Корпус и междисциплинарные исследования
Список литературы
Рекомендуемая основная литература
- 9789027268716 - Boulton, Alex; Lenko-Szymanska, Agnieszka - Multiple Affordances of Language Corpora for Data-driven Learning - 2015 - John Benjamins Publishing Company - http://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=987719 - nlebk - 987719
- A corpus linguistic approach to literary language and characterization : Virginia Woolf's The Waves, Balossi, G., 2014
- A corpus-based analysis of the terminology of the European Union's development cooperation policy : with the African, Caribbean and Pacific Group of States, Kast-Aigner, J., 2010
- Clause linkage in cross-linguistic perspective : data-driven approaches to cross-clausal syntax, , 2012
- Corpus applications in applied linguistics, , 2012
- Corpus linguistics : applications for the study of English, , 2008
- Corpus linguistics on the move : exploring and understanding English through corpora, , 2016
- Extraction and analysis of modal auxiliaries in consecutive clauses from a corpus, Chartrand, R., 2016
- Gautam, A., Mathur, P., Gosangi, R., Mahata, D., Sawhney, R., & Shah, R. R. (2019). #MeTooMA: Multi-Aspect Annotations of Tweets Related to the MeToo Movement.
- Griebel, T., & Vollmann, E. (2019). We can('t) do this: A corpus-assisted critical discourse analysis of migration in Germany. Journal of Language & Politics, 18(5), 671–697. https://doi.org/10.1075/jlp.19006.gri
- Hai-Jew, S. (2017). Data Analytics in Digital Humanities. Cham, Switzerland: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1514614
- Lin, X. V., Wang, C., Zettlemoyer, L., & Ernst, M. D. (2018). NL2Bash: A Corpus and Semantic Parser for Natural Language Interface to the Linux Operating System.
- Longley Arthur, P., & Bode, K. (2015). Advancing Digital Humanities - Research Methods Theories. Australia, Australia/Oceania: Palgrave Macmillan Ltd. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.E27A6773
- Nagao, K. (2003). Digital Content Annotation and Transcoding. Boston, MA: Artech House, Inc. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=87716
- Phuong, P. N., Do, Q. T., & Mai, L. C. (2019). A high quality and phonetic balanced speech corpus for Vietnamese. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsarx&AN=edsarx.1904.05569
- Schreibman, S., Siemens, R. G., & Unsworth, J. (2004). A Companion to Digital Humanities. Malden, MA: Wiley-Blackwell. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=231516
- Svensson, P., & University of Michigan. (2016). Big Digital Humanities : Imagining a Meeting Place for the Humanities and the Digital. Ann Arbor: U OF M DIGT CULT BOOKS. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1527076
- Yasunaga, M., Kasai, J., Zhang, R., Fabbri, A. R., Li, I., Friedman, D., & Radev, D. R. (2019). ScisummNet: A Large Annotated Corpus and Content-Impact Models for Scientific Paper Summarization with Citation Networks. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsarx&AN=edsarx.1909.01716
- Володин, А. (2014). Digital Humanities (Цифровые Гуманитарные Науки): В Поисках Самоопределения. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.57CAFD22
- Володин, А. (2014). Digital Humanities (Цифровые Гуманитарные Науки): В Поисках Самоопределения. Вестник Пермского Университета. Серия: История, (3 (26)). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsclk&AN=edsclk.15671143
- Грудева, Е. В. Корпусная лингвистика : учебное пособие / Е. В. Грудева. — 4-е изд., стер. — Москва : ФЛИНТА, 2025. — 165 с. — ISBN 978-5-9765-1497-3. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/504928 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Зубакина, Т. Н. Brush up Your English through Collocations : учебное пособие / Т. Н. Зубакина. — 2-е изд. стер. — Москва : ФЛИНТА, 2022. — 116 с. — ISBN 978-5-9765-5061-2. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/298724 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
- Шунейко, А. А. Корпусная лингвистика : учебник для вузов / А. А. Шунейко. — Москва : Издательство Юрайт, 2025. — 222 с. — (Высшее образование). — ISBN 978-5-534-13603-6. — Текст : электронный // Образовательная платформа Юрайт [сайт]. — URL: https://urait.ru/bcode/567396 (дата обращения: 14.01.2026).
Рекомендуемая дополнительная литература
- Contemporary corpus linguistics, , 2012
- Corpus linguistics in language teaching, , 2010
- Corpus linguistics. Vol.1: Lexical studies, , 2012
- Corpus linguistics. Vol.2: Grammar, , 2012
- Corpus linguistics. Vol.3: Varieties, , 2012
- Corpus linguistics. Vol.4: Methods and applications, , 2012
- Corpus methods for semantics : quantitative studies in polysemy and synonymy, , 2014
- Corpus-based research in applied linguistics : studies in honor of doug biber, , 2015
- Ten lectures on quantitative approaches in cognitive linguistics : corpus-linguistic, experimental, and statistical applications, Gries, S. T., 2017
- The evolution of complex spatial expressions within the Romance family : a corpus-based study of French and Italian, Hoelbeek, T., 2017
- The language of new media, Manovich, L., 2001
- The Oxford handbook of corpus phonology, , 2014
- Захаров В.П., Богданова С.Ю. - Корпусная лингвистика - 978-5-288-05997-1 - Санкт-Петербургский государственный университет - 2020 - https://znanium.ru/catalog/product/1244746 - 1244746 - ZNANIUM
- Лингвистическое исследование скрытых сообществ в корпусе социальных медиа с применением мультимод... : автореф. дис. ... канд. филол. наук : 5.9.8., Мамаев, И. Д., 2024