• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2024/2025

Работа с текстами на естественном языке

Статус: Курс обязательный (Медиакоммуникации)
Направление: 42.03.05. Медиакоммуникации
Кто читает: Институт медиа
Когда читается: 3-й курс, 4 модуль
Формат изучения: без онлайн-курса
Охват аудитории: для всех кампусов НИУ ВШЭ
Язык: русский
Кредиты: 4

Программа дисциплины

Аннотация

Курс предлагает студентам понимание методов анализа и обработки текстовой информации. В рамках курса рассматриваются такие темы, как визуальный анализ текстов, автоматическая классификация текста, извлечение ключевых идей и анализ тональности. Студенты освоят практические инструменты на языке Python и алгоритмы, применяемые в реальных проектах, включая работу с массивами данных и создание моделей машинного обучения. По завершении студенты смогут эффективно применять полученные знания для решения задач в области NLP и медиакоммуникации.
Цель освоения дисциплины

Цель освоения дисциплины

  • изучить методы визуализации текстовых данных
  • изучить методы предобработки и векторизации текстовых данных
  • изучить методы машинного обучения
Планируемые результаты обучения

Планируемые результаты обучения

  • Классифицирует тексты с помощью разных алгоритмов
  • Проводит статистический и визуальный анализ текстовых данных
  • Выделяет из текстов релевантную информацию
  • Векторизует тексты с помощью различных методов
  • Проводит кластеризацию текстов
  • Работает с текстовыми корпусами данных в формате csv
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Введение
  • Предобработка текстовых данных
  • Анализ данных. Система классификации.
  • Статистический и визуальный анализ данных
  • Автоматические методы векторизации
  • Снижение размерности
  • Методы классификации
  • Подбор гиперпараметров
  • Тестирование системы
  • Аспектный анализ тональности
  • Игра «Свое программирование»
Элементы контроля

Элементы контроля

  • неблокирующий Дедлайн
    Выполнение домашних заданий в установленные сроки
  • неблокирующий Домашнее задание
  • неблокирующий Зачет
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 4th module
    0.2 * Дедлайн + 0.6 * Домашнее задание + 0.2 * Зачет
Список литературы

Список литературы

Рекомендуемая основная литература

  • Рашка, С. Python и машинное обучение: крайне необходимое пособие по новейшей предсказательной аналитике, обязательное для более глубокого понимания методологии машинного обучения : руководство / С. Рашка , перевод с английского А. В. Логунова. — Москва : ДМК Пресс, 2017. — 418 с. — ISBN 978-5-97060-409-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/100905 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Коэльо, Л. П. Построение систем машинного обучения на языке Python / Л. П. Коэльо, В. Ричарт , перевод с английского А. А. Слинкин. — 2-е изд. — Москва : ДМК Пресс, 2016. — 302 с. — ISBN 978-5-97060-330-7. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/82818 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Авторы

  • Уваров Федор Максимович