Магистратура
2025/2026





Машинное обучение и безопасность систем
Статус:
Курс обязательный (Информационная безопасность и технологии искусственного интеллекта)
Когда читается:
1-й курс, 3, 4 модуль
Охват аудитории:
для своего кампуса
Преподаватели:
Силаев Юрий Владимирович
Язык:
русский
Кредиты:
6
Контактные часы:
80
Программа дисциплины
Аннотация
Курс посвящен базовым методам машинного обучения и их применению в задачах, связанных с информационной безопасностью, где критичны корректная постановка эксперимента, устойчивость моделей к шуму и сдвигу данных, интерпретируемость решений и оценка рисков ошибок. Рассматриваются подготовка и анализ данных, классические модели (линейные, деревья и ансамбли), основы нейронных сетей, методы работы с текстовыми данными и изображениями, а также методы диагностики и интерпретации моделей. Отдельное внимание уделяется типовым уязвимостям ML-моделей (ошибки валидации, утечки признаков, переобучение, чувствительность к возмущениям) и базовым подходам к оценке робастности и приватности. Практическая часть ориентирована на воспроизводимые эксперименты и оформленные результаты проверки качества и надежности моделей.
Цель освоения дисциплины
- Сформировать системное понимание базовых методов машинного обучения и типовых сценариев их применения в задачах информационной безопасности.
- Сформировать практические навыки построения воспроизводимых ML-экспериментов: подготовка данных, обучение моделей, корректная валидация, выбор метрик и порогов, интерпретация результатов.
- Сформировать навыки диагностики надежности ML-моделей: выявление ошибок постановки эксперимента и утечек, оценка устойчивости к шуму или сдвигу данных и базовая оценка уязвимостей.
Планируемые результаты обучения
- Определяет основные понятия и типы задач машинного обучения.
- Объясняет специфику ML-задач в контексте ИБ: дисбаланс классов, цена ошибок, сдвиг данных.
- Понимает роль корректной валидации и воспроизводимости эксперимента.
- Обучает и интерпретирует линейные модели и логистическую регрессию, применяет регуляризацию.
- Подбирает метрики под задачу (в т.ч. при дисбалансе): ROC-AUC, PR-AUC, F1, precision/recall.
- Настраивает пороги принятия решений и оценивает влияние порога на риск FP/FN.
- Понимает калибровку вероятностей и ограничения «вероятностной интерпретации» модели.
- Выполняет предварительную обработку данных и анализ качества (пропуски, выбросы, дубликаты, несогласованности).
- Выявляет риски утечек признаков/разметки и ошибок разбиения (data leakage).
- Выбирает протокол валидации (train, val, test, CV) под свойства данных.
- Проводит визуализацию и формулирует проверяемые гипотезы о данных.
- Обучает деревья решений, контролирует переобучение (глубина, минимальные выборки, pruning, регуляризация гиперпараметрами).
- Использует ансамбли на основе деревьев (Random Forest, градиентный бустинг) на уровне применения и интерпретации результатов.
- Анализирует важность признаков и ограничения стандартных importance-оценок.
- Объясняет базовые компоненты нейросетей и процесс обучения (loss, оптимизация, регуляризация).
- Диагностирует переобучение и нестабильность обучения; применяет базовые техники стабилизации (dropout, weight decay, early stopping).
- Понимает риски «запоминания» и влияние качества данных на надежность модели.
- Применяет базовые представления текста (мешок слов, TF-IDF) и эмбеддинги на уровне использования.
- Решает задачи классификации, поиска, кластеризации для текстов и логов, интерпретирует качество.
- Понимает типовые источники ошибок в NLP-пайплайне (шум разметки, доменная специфика, дрейф словаря).
- Выполняет базовую предобработку изображений и обучает простые модели классификации.
- Понимает типовые причины ошибок моделей на изображениях и ограничения переносимости на новые условия съемки или данные.
- Применяет методы интерпретации (SHAP/LIME) и анализ ошибок модели (error analysis).
- Использует интерпретацию как инструмент проверки адекватности признаков, выявления утечек и неустойчивых закономерностей.
- Формулирует выводы и рекомендации по улучшению данных/модели на основе интерпретации.
- Оценивает устойчивость качества к шуму, выбросам и сдвигу данных; проектирует стресс-тесты.
- Понимает классы уязвимостей ML-моделей (evasion/poisoning на концептуальном уровне) и базовые меры снижения рисков.
- Понимает риски утечек приватности (на уровне постановки и оценки) и подходы к ограничению утечек (регуляризация, контроль информации, агрегирование).
Содержание учебной дисциплины
- 1 Введение в дисциплину
- 2 Эксплоративный анализ данных
- 3 Линейные модели
- 4 Решающие деревья и ансамбли
- 5 Нейронные сети
- 6 Анализ текстов и логов
- 7 Работа с изображениями
- 8 Интерпретируемость моделей
- 9 Робастность, приватность и уязвимости моделей
Элементы контроля
- Контрольная работа
- Домашнее задание
- Проектное задание
- ЭкзаменИтоговый экзамен по дисциплине проводится в форме письменного экзамена в конце изучения курса в присутствии преподавателя. На экзамене студент получает формуляр с заданиями экзамена, которые должен решить и сдать на проверку в течение 2 (двух) академических часов.
Промежуточная аттестация
- 2025/2026 4th module0.3 * Домашнее задание + 0.2 * Контрольная работа + 0.3 * Проектное задание + 0.2 * Экзамен
Список литературы
Рекомендуемая основная литература
- Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705
- Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008
- Manning C. D., Schutze H. Foundations of statistical natural processing. – 1999. – 719 pp.
Рекомендуемая дополнительная литература
- Stephen Boyd, Lieven Vandenberghe, & Lieven V. (2015). Additional Exercises for Convex Optimization. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.E7445CE1