• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Магистратура 2025/2026

Машинное обучение и безопасность систем

Язык: русский
Кредиты: 6
Контактные часы: 80

Программа дисциплины

Аннотация

Курс посвящен базовым методам машинного обучения и их применению в задачах, связанных с информационной безопасностью, где критичны корректная постановка эксперимента, устойчивость моделей к шуму и сдвигу данных, интерпретируемость решений и оценка рисков ошибок. Рассматриваются подготовка и анализ данных, классические модели (линейные, деревья и ансамбли), основы нейронных сетей, методы работы с текстовыми данными и изображениями, а также методы диагностики и интерпретации моделей. Отдельное внимание уделяется типовым уязвимостям ML-моделей (ошибки валидации, утечки признаков, переобучение, чувствительность к возмущениям) и базовым подходам к оценке робастности и приватности. Практическая часть ориентирована на воспроизводимые эксперименты и оформленные результаты проверки качества и надежности моделей.
Цель освоения дисциплины

Цель освоения дисциплины

  • Сформировать системное понимание базовых методов машинного обучения и типовых сценариев их применения в задачах информационной безопасности.
  • Сформировать практические навыки построения воспроизводимых ML-экспериментов: подготовка данных, обучение моделей, корректная валидация, выбор метрик и порогов, интерпретация результатов.
  • Сформировать навыки диагностики надежности ML-моделей: выявление ошибок постановки эксперимента и утечек, оценка устойчивости к шуму или сдвигу данных и базовая оценка уязвимостей.
Планируемые результаты обучения

Планируемые результаты обучения

  • Определяет основные понятия и типы задач машинного обучения.
  • Объясняет специфику ML-задач в контексте ИБ: дисбаланс классов, цена ошибок, сдвиг данных.
  • Понимает роль корректной валидации и воспроизводимости эксперимента.
  • Обучает и интерпретирует линейные модели и логистическую регрессию, применяет регуляризацию.
  • Подбирает метрики под задачу (в т.ч. при дисбалансе): ROC-AUC, PR-AUC, F1, precision/recall.
  • Настраивает пороги принятия решений и оценивает влияние порога на риск FP/FN.
  • Понимает калибровку вероятностей и ограничения «вероятностной интерпретации» модели.
  • Выполняет предварительную обработку данных и анализ качества (пропуски, выбросы, дубликаты, несогласованности).
  • Выявляет риски утечек признаков/разметки и ошибок разбиения (data leakage).
  • Выбирает протокол валидации (train, val, test, CV) под свойства данных.
  • Проводит визуализацию и формулирует проверяемые гипотезы о данных.
  • Обучает деревья решений, контролирует переобучение (глубина, минимальные выборки, pruning, регуляризация гиперпараметрами).
  • Использует ансамбли на основе деревьев (Random Forest, градиентный бустинг) на уровне применения и интерпретации результатов.
  • Анализирует важность признаков и ограничения стандартных importance-оценок.
  • Объясняет базовые компоненты нейросетей и процесс обучения (loss, оптимизация, регуляризация).
  • Диагностирует переобучение и нестабильность обучения; применяет базовые техники стабилизации (dropout, weight decay, early stopping).
  • Понимает риски «запоминания» и влияние качества данных на надежность модели.
  • Применяет базовые представления текста (мешок слов, TF-IDF) и эмбеддинги на уровне использования.
  • Решает задачи классификации, поиска, кластеризации для текстов и логов, интерпретирует качество.
  • Понимает типовые источники ошибок в NLP-пайплайне (шум разметки, доменная специфика, дрейф словаря).
  • Выполняет базовую предобработку изображений и обучает простые модели классификации.
  • Понимает типовые причины ошибок моделей на изображениях и ограничения переносимости на новые условия съемки или данные.
  • Применяет методы интерпретации (SHAP/LIME) и анализ ошибок модели (error analysis).
  • Использует интерпретацию как инструмент проверки адекватности признаков, выявления утечек и неустойчивых закономерностей.
  • Формулирует выводы и рекомендации по улучшению данных/модели на основе интерпретации.
  • Оценивает устойчивость качества к шуму, выбросам и сдвигу данных; проектирует стресс-тесты.
  • Понимает классы уязвимостей ML-моделей (evasion/poisoning на концептуальном уровне) и базовые меры снижения рисков.
  • Понимает риски утечек приватности (на уровне постановки и оценки) и подходы к ограничению утечек (регуляризация, контроль информации, агрегирование).
Содержание учебной дисциплины

Содержание учебной дисциплины

  • 1 Введение в дисциплину
  • 2 Эксплоративный анализ данных
  • 3 Линейные модели
  • 4 Решающие деревья и ансамбли
  • 5 Нейронные сети
  • 6 Анализ текстов и логов
  • 7 Работа с изображениями
  • 8 Интерпретируемость моделей
  • 9 Робастность, приватность и уязвимости моделей
Элементы контроля

Элементы контроля

  • неблокирующий Контрольная работа
  • неблокирующий Домашнее задание
  • неблокирующий Проектное задание
  • неблокирующий Экзамен
    Итоговый экзамен по дисциплине проводится в форме письменного экзамена в конце изучения курса в присутствии преподавателя. На экзамене студент получает формуляр с заданиями экзамена, которые должен решить и сдать на проверку в течение 2 (двух) академических часов.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 4th module
    0.3 * Домашнее задание + 0.2 * Контрольная работа + 0.3 * Проектное задание + 0.2 * Экзамен
Список литературы

Список литературы

Рекомендуемая основная литература

  • Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705
  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008
  • Manning C. D., Schutze H. Foundations of statistical natural processing. – 1999. – 719 pp.

Рекомендуемая дополнительная литература

  • Stephen Boyd, Lieven Vandenberghe, & Lieven V. (2015). Additional Exercises for Convex Optimization. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.E7445CE1

Авторы

  • Силаев Юрий Владимирович
  • Андреева Дарья Александровна
  • Евсютин Олег Олегович
  • Аксенова Ольга Вениаминовна