• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Бакалавриат 2025/2026

ИИ в науках о Земле

Когда читается: 4-й курс, 1, 2 модуль
Охват аудитории: для своего кампуса
Язык: русский
Контактные часы: 84

Программа дисциплины

Аннотация

Курс «ИИ в науках о Земле» знакомит студентов с современными методами искусственного интеллекта для анализа данных и моделирования природных процессов. Основное внимание уделяется алгоритмам обучения с учителем и без учителя, методам снижения размерности и интерпретации моделей, а также ансамблевым и нейросетевым подходам. На примерах данных атмосферы, океана и криосферы рассматриваются задачи классификации, регрессии, кластеризации и визуализации многомерных данных. Студенты приобретают практические навыки подготовки и обработки наборов данных, построения моделей, оценки их качества и интерпретации результатов с учётом физического смысла рассматриваемых процессов.
Цель освоения дисциплины

Цель освоения дисциплины

  • Освоение фундаментальных понятий и методов машинного обучения и искусственного интеллекта, применяемых к задачам наук о Земле.
  • Получение знаний об алгоритмах обучения с учителем и без учителя, методах снижения размерности, интерпретации моделей и оценке их качества.
  • Изучение возможностей ансамблевых и нейросетевых подходов для анализа данных атмосферы, океана и криосферы.
  • Приобретение практических навыков подготовки и обработки геофизических данных, построения и тестирования моделей.
  • Формирование умений интерпретировать результаты моделирования с учётом физического смысла процессов в науках о Земле.
Планируемые результаты обучения

Планируемые результаты обучения

  • формулирует основные понятия и определения искусственного интеллекта и машинного обучения; различает контролируемое, неконтролируемое и самоконтролируемое обучение; умеет приводить примеры постановок задач на данных океана, атмосферы и климата
  • описывает и иллюстрирует особенности данных наук о Земле, их структуру и основные проблемы качества (шумы, пропуски, масштабирование), а также принципы подготовки данных для последующего анализа методами ИИ
  • умеет формулировать задачи классификации, регрессии и кластеризации применительно к данным океана, атмосферы и климата; умеет выбирать соответствующие методы решения в подходе наук о данных на базовом уровне
  • Владеет базовыми инструментами предварительной обработки данных, разделения выборки на обучающую, валидационную и тестовую части, а также методами первичной оценки качества моделей
  • формулировать основы линейных моделей, их математические принципы, ограничения и области применения в задачах наук о Земле
  • формулирует основные методы регуляризации (L1, L2, Elastic net); демонстрирует их матемтический вывод, объясняет их роль в борьбе с переобучением
  • описывает алгоритмы построения деревьев решений и ансамблевых моделей (бэггинг, случайные леса, бустинги), а также их преимущества и недостатки при работе с данными океана, атмосферы и климата
  • применяет линейные модели и непараметрические модели для решения задач классификации и регрессии на примерах геофизических данных
  • владеет навыками оценки качества классических моделей классификации с использованием метрик точности, полноты, F-меры, с использованием методов перекрестной проверки
  • владеет инструментами интерпретации моделей, включая оценку значимости признаков и анализ устойчивости результатов
  • называет и объясняет основные задачи неконтролируемого обучения; демонстрирует их применение к данным океана, атмосферы и климата
  • объясняет различия между линейными и нелинейными методами снижения размерности, их математические основы и ограничения
  • применяет различные алгоритмы кластеризации и методы снижения размерности для анализа многомерных данных
  • применяет подходы визуализации и интерпретации результатов неконтролируемого обучения для выявления структуры данных и идентификации аномалий
  • формулирует архитектуру многослойного перцептрона, объясняет назначение нелинейных функций активации и роль параметров нейросети в аппроксимации сложных зависимостей в данных океана, атмосферы и климата
  • объясняет принципы оптимизации нейросетей с использованием градиентных методов, объясняет устройство графа вычислений и метод обратного распространения ошибки
  • применяет различные методы инициализации весов, регуляризации и нормализации для стабилизации обучения и повышения обобщающей способности моделей
  • объясняет выбор функций активации с учетом их свойств и влияния на процесс обучения
  • разрабатывает методы искусственного дополнения данных; применяет практические инструментами стабилизации обучения глубоких нейросетей
  • формулировать и распознавать архитектуры специализированных нейросетей (сверточные, рекуррентные, модели на основе механизмов внимания); применять их в задачах анализа пространственных и временных данных океана, атмосферы и климата
  • реализовывать код для построения моделей, чтения и аугментации данных, организации цикла обучения и валидации с учетом особенностей, направленных на снижение влияния факторов, ограничивающих производительность при обучении нейросетей на GPU
  • применяет методы параллельной обработки данных и оптимизации пайплайна обучения (загрузчик данных, многопоточные чтение и обработка данных, использование очередей данных на CPU/GPU, аугментация данных «на лету»)
  • применяет навыки построения и обучения автокодировщиков различных типов для задач идентификации аномалий и снижения размерности в геофизических данных
  • применяет методы неконтролируемого и самоконтролируемого обучения для выучивания представлений данных, прогнозирования и извлечения признаков в задачах наук о Земле
  • решает прикладные задачи анализа и моделирования процессов и коллекций данных в науках о Земле с использованием порождающих и дискриминативных нейросетевых моделей, включая задачи идентификации аномалий и анализа многомерных данных
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Основы искусственного интеллекта и машинного обучения
  • Классические методы машинного обучения
  • Неконтролируемое обучение, снижение размерности
  • Основы глубокого обучения: искусственные нейронные сети и их оптимизация
  • Специализированные архитектуры и эффективные подходы обучения нейросетей в науках о Земле
Элементы контроля

Элементы контроля

  • неблокирующий Практическая работа 1
    Работа направлена на закрепление навыка постановки задач в форме задач МО. Задание индивидуальное. В задании описываются сферы исследований в науках о Земле и некоторые проблемы, представляющие интерес для исследователей. Альтернативно можно использовать области исследований своей курсовой работы или любые другие, связанные с геофизикой или науками о Земле. Задание заключается в том, чтобы сформулировать две задачи в терминах машинного обучения, которые можно было бы решать, имея в распоряжении описанные данные. В решении должны быть описаны все необходимые составляющие формулировки задачи.
  • неблокирующий Самостоятельная работа 1
    Задание направлено на закрепление понимания вероятностных основ линейных моделей машинного обучения. В этом задании необходимо воспроизвести вывод функции потерь для линейной регрессии в предположении, что целевая переменная генерируется природой не из нормального распределения, а из распределения Лапласа. В решении должны быть выписаны все предпосылки, влияющие на вывод формулы функции потерь, и пояснены все переходы с учетом этих предпосылок. Работа выполняется индивидуально.
  • неблокирующий Практическая работа 2
    Задание направлено на освоение ключевых этапов разведочного анализа данных (EDA), необходимых для последующей подготовки и построения моделей машинного обучения в науках о Земле. Студенту предлагается выполнить EDA на выбранной коллекции данных (желательно связанной с дальнейшей проектной работой) и оформить результат в Jupyter-ноутбуке. В рамках задания необходимо: • провести чтение и предварительную подготовку данных; • исследовать структуру данных (размерность, типы, пропуски); • выполнить одномерный анализ (описательные статистики, распределения); • выполнить двумерный анализ (связи между целевой переменной и признаками, корреляции); • выполнить многомерный анализ взаимосвязей; • визуализировать результаты.
  • неблокирующий Практическая работа 3
    Задание направлено на освоение базовой модели машинного обучения — линейной регрессии. Студенту необходимо: • подготовить массивы признаков (X) и целевой переменной (Y) из выбранной им коллекции данных; • построить и обучить модель линейной регрессии с использованием scikit-learn или с использованием реализации, продемонстрированной на семинаре; • оценить качество модели с помощью количественных метрик (R², RMSE и др.) и графической интерпретации; • выполнить первичный анализ коэффициентов регрессии и их интерпретацию в контексте данных наук о Земле.
  • неблокирующий Практическая работа 4
    Задание направлено на освоение методов оценки качества и неопределённостей моделей машинного обучения с использованием кросс-валидации. Студенту необходимо: • дополнить решение задачи линейной регрессии реализацией кросс-валидации; • обосновать выбор метода кросс-валидации (bootstrap, k-fold, stratified k-fold и др.); • с использованием выбранного подхода оценить неопределённости (например, стандартное отклонение или доверительные интервалы) для качества, параметров и прогнозов модели; • интерпретировать полученные результаты и сделать выводы о надёжности модели.
  • неблокирующий Практическая работа 5
    Задание направлено на понимание принципов работы полносвязной искусственной нейронной сети (ИНС) через пошаговую реализацию прямого прохода. Студенту необходимо: • загрузить данные и параметры заранее обученной трёхслойной нейросети; • реализовать вычисления сети «вручную» (слой за слоем с заданной функцией активации); • сравнить результаты нейросети с эталонной целевой переменной; • вычислить метрики качества (MSE, MAE, коэффициент корреляции Пирсона, R²); • визуализировать результаты (диаграмму рассеяния аппроксимированных и наблюдённых значений).
  • неблокирующий Практическая работа 6
    Задание направлено на освоение применения сверточных автокодировщиков для задач выявления аномалий. Студенту необходимо: • реализовать и обучить сверточный автокодировщик на тренировочных данных; • применить модель к тестовым данным; • проанализировать результаты восстановления и определить примеры, которые можно считать аномальными на основании высоких значений функции потерь.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    0.15 * Практическая работа 1 + 0.1 * Практическая работа 2 + 0.1 * Практическая работа 3 + 0.2 * Практическая работа 4 + 0.15 * Практическая работа 5 + 0.25 * Практическая работа 6 + 0.05 * Самостоятельная работа 1
Список литературы

Список литературы

Рекомендуемая основная литература

  • 9780470226780 - Seber, G. A. F. - A Matrix Handbook for Statisticians - 2007 - John Wiley & Sons - http://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=218527 - nlebk - 218527
  • Pattern recognition and machine learning, Bishop, C. M., 2006
  • Вероятностное машинное обучение : введение, Мэрфи, К. П., 2023
  • Глубокое обучение : погружение в мир нейронных сетей, Николенко, С., 2018
  • Глубокое обучение, Гудфеллоу, Я., 2018
  • Машинное обучение : наука и искусство построения алгоритмов, которые извлекают знания из данных, Флах, П., 2015

Рекомендуемая дополнительная литература

  • Вероятностное машинное обучение. Дополнительные темы : основания, вывод, Мэрфи, К. П., 2024
  • Вероятностное машинное обучение. Дополнительные темы : предсказание, порождение, обнаружение, действие, Мэрфи, К. П., 2024

Авторы

  • Зюляева Юлия Анатольевна