Бакалавриат
2024/2025



Работа с текстами на естественном языке
Статус:
Курс обязательный (Медиакоммуникации)
Направление:
42.03.05. Медиакоммуникации
Кто читает:
Институт медиа
Где читается:
Факультет креативных индустрий
Когда читается:
3-й курс, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для всех кампусов НИУ ВШЭ
Язык:
русский
Кредиты:
4
Программа дисциплины
Аннотация
Курс предлагает студентам понимание методов анализа и обработки текстовой информации. В рамках курса рассматриваются такие темы, как визуальный анализ текстов, автоматическая классификация текста, извлечение ключевых идей и анализ тональности. Студенты освоят практические инструменты на языке Python и алгоритмы, применяемые в реальных проектах, включая работу с массивами данных и создание моделей машинного обучения. По завершении студенты смогут эффективно применять полученные знания для решения задач в области NLP и медиакоммуникации.
Цель освоения дисциплины
- изучить методы визуализации текстовых данных
- изучить методы предобработки и векторизации текстовых данных
- изучить методы машинного обучения
Планируемые результаты обучения
- Классифицирует тексты с помощью разных алгоритмов
- Проводит статистический и визуальный анализ текстовых данных
- Выделяет из текстов релевантную информацию
- Векторизует тексты с помощью различных методов
- Проводит кластеризацию текстов
- Работает с текстовыми корпусами данных в формате csv
Содержание учебной дисциплины
- Введение
- Предобработка текстовых данных
- Анализ данных. Система классификации.
- Статистический и визуальный анализ данных
- Автоматические методы векторизации
- Снижение размерности
- Методы классификации
- Подбор гиперпараметров
- Тестирование системы
- Аспектный анализ тональности
- Игра «Свое программирование»
Список литературы
Рекомендуемая основная литература
- Рашка, С. Python и машинное обучение: крайне необходимое пособие по новейшей предсказательной аналитике, обязательное для более глубокого понимания методологии машинного обучения : руководство / С. Рашка , перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2017. — 418 с. — ISBN 978-5-97060-409-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100905 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Коэльо, Л. П. Построение систем машинного обучения на языке Python / Л. П. Коэльо, В. Ричарт , перевод с английского А. А. Слинкин. — 2-е изд. — Москва : ДМК Пресс, 2016. — 302 с. — ISBN 978-5-97060-330-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/82818 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.