Магистратура
2024/2025





Избранные темы науки о данных
Статус:
Курс по выбору (Анализ данных для государства и общества)
Направление:
39.04.01. Социология
Где читается:
Санкт-Петербургская школа социальных наук
Когда читается:
1-й курс, 4 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Снарский Ярослав Александрович
Прогр. обучения:
Анализ данных для государства и общества
Язык:
русский
Кредиты:
3
Программа дисциплины
Аннотация
В ходе курса будет представлен обзор альтернативных подходов к анализу данных, когда предпосылки линейной регрессии не выполняются. Курс начнется с обзора основных теоретических предположений, которые делаются в рамках линейной регрессии и ситуаций, когда эти предпосылки не выполняются: временные ряды, панельные и пространственные данные. Вторая часть курса вводит слушателей в основы машинного и глубокого обучения. Знание теории вероятности и статистики, линейной алгебры на базовом уровне необходимо для освоения курса. R, статистический язык с открытым исходным кодом, и язык программирования Python будут использоваться на протяжении всего курса.
Цель освоения дисциплины
- Разбираться в продвинутых подходах к статистическому моделированию
- Разбираться в применимости моделей с фиксированными и случайными эффектами
- Использовать алгоритмы машинного обучения в задачах предсказания и классификации
Планируемые результаты обучения
- Владеет понятием машинного обучения. Знает задачи обучения с учителем и без учителя; задачи классификации и регрессии. Владеет понятием разложения bias- variance-noise. Владеет понятием тестовой и обучающей выборки; кросс-валидации.
- Умеет применять глубинное обучение для решения характерных задач
- Диагностировать нарушение предпосылок линейной регрессии.
- Подбирать альтернативные подходы к данным, которые не соответствуют предпосылкам линейной регрессии.
- Овладеть терминологией, используемой в анализе временных рядов
- Тестировать автокорреляцию и применять модели распределенных лагов
- Выбирать модели с фиксированными и случайными эффектами в зависимости от типа исследуемых данных
- Использовать кластеризацию стандартных ошибок
- Овладеть основными подходами к визуализации и моделированию пространственных данных.
- Разбираться в основных подходах к причинно-следственному выводу
- Уметь применять квази-экспериментальные подходы в собственных исследовательских проектах
- Уметь применять метод инструментальных переменных
- Применять градиентный спуск для оптимизации моделей, настраивать шаги обучения и анализировать процесс сходимости.
Содержание учебной дисциплины
- Введение в эконометрику. Нарушение предпосылок линейной регрессии
- Временные ряды: Введение
- Многомерные модели временных рядов
- Панельные данные. Модели с фиксированными и случайными эффектами.
- Робастные стандартные ошибки. Кластеризация стандартных ошибок
- Пространственные данные и GIS
- Введение в Машинное обучение
- Градиентный спуск и алгоритмы оптимизации
- Основы глубокого обучения
Элементы контроля
- Промежуточный тестТест по первой части курса - тестированию предпосылок линейной регрессии, проверки временных моделей и моделей панельных данных.
- Тест по теории машинного обучения
- Активность на семинарах
- Домашние задания
Промежуточная аттестация
- 2024/2025 4th module0.2 * Активность на семинарах + 0.2 * Домашние задания + 0.3 * Промежуточный тест + 0.3 * Тест по теории машинного обучения
Список литературы
Рекомендуемая основная литература
- A first course in machine learning, Rogers, S., 2012
- A Tutorial on Machine Learning and Data Science Tools with Python. (2017). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.E5F82B62
- Analysis of integrated and cointegrated time series with R, Pfaff, B., 2008
- Applied econometric time series, Enders, W., 2010
- Applied spatial data analysis with R, Bivand, R., 2008
- Bivand, R., Pebesma, E. J., & Gómez-Rubio, V. (2013). Applied Spatial Data Analysis with R (Vol. 2nd ed). New York, NY: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=601853
- Buitinck, L., Louppe, G., & Blondel, M. (2013). API design for machine learning software: experiences from the scikit-learn project.
- Integrating deep learning algorithms to overcome challenges in big data analytics, , 2022
- Kleiber, C., & Zeileis, A. (2008). Applied Econometrics with R. New York: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=275761
- Machine learning : beginner's guide to machine learning, data mining, big data, artificial intelligence and neural networks, Trinity, L., 2019
- Machine learning in action, Harrington, P., 2012
- Marcellino, M. (2018). Applied Econometrics : An Introduction. Bocconi University Press.
- Mostly harmless econometrics: an empiricist's companion, Angrist, J.D., 2009
- Pattern recognition and machine learning, Bishop, C. M., 2006
- Pro Deep Learning with TensorFlow 2.0 : a mathematical approach to advanced artificial intelligence in Python, Pattanayak, S., 2023
- Rogers, S., & Girolami, M. (2016). A First Course in Machine Learning (Vol. 2nd ed). Milton: Chapman and Hall/CRC. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1399490
- Time series algorithms recipes : implement machine learning and deep learning techniques with Python, , 2023
Рекомендуемая дополнительная литература
- Aguirregabiria, V., & Carro, J. M. (2021). Identification of Average Marginal Effects in Fixed Effects Dynamic Discrete Choice Models.
- Fixed effects regression models, Allison, P. D., 2009