2025/2026




LSML
Статус:
Маго-лего
Где читается:
Факультет компьютерных наук
Когда читается:
3 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Контактные часы:
24
Программа дисциплины
Аннотация
Дисциплина знакомит студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями.
Цель освоения дисциплины
- Ознакомление студентов с основными задачами машинного обучения на больших данных, их особенностями и ограничениями
Планируемые результаты обучения
- Владеть инструментами обработки данных в парадигме MapReduce
- Знать особенности распараллеливания алгоритмов машинного обучения для применения на больших данных
- Уметь работать с большими данными в реальных задачах
Содержание учебной дисциплины
- Hadoop
- Spark
- Linear models
- Boosting
- Recommender systems
- Neural networks
- Hashing tricks
- Min hash & LSH
- Spark streaming and Kafka
- Catboost
Элементы контроля
- Мини-домашнее задание 1Работа с облаком Алгоритм на Bash
- Мини-домашнее задание 3Более продвинутые задачи по работе на Spark Собрать признаки из имеющихся данных
- Мини-домашнее задание 4Собрать датасет на Spark Обучить классическую модель
- Мини-домашнее задание 2Алгоритм на Map Reduce Алгоритмы на Spark
- Большое домашнее заданиеОбучить модель на большом датасете
Список литературы
Рекомендуемая основная литература
- An Introduction to the Bootstrap, Efron, B., 1993
- Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The Elements of Statistical Learning : Data Mining, Inference, and Prediction (Vol. Second edition, corrected 7th printing). New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=277008
Рекомендуемая дополнительная литература
- Murphy, K. P. (2012). Machine Learning : A Probabilistic Perspective. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=480968
- Машинное обучение : наука и искусство построения алгоритмов, которые извлекают знания из данных, Флах, П., 2015