• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2024/2025

Компьютерное зрение

Статус: Маго-лего
Когда читается: 3 модуль
Онлайн-часы: 20
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3

Программа дисциплины

Аннотация

Курс охватывает основные задачи компьютерного зрения. В рамках курса слушатели научатся программно обрабатывать изображения, поймут на чем основаны все фоторедакторы. Затем они познакомятся с глубинным обучением для основных задач с учителем, возникающих в зрении, а именно классификации, сегментации и детекции. В дополнении к задаче с учителем, слушатели познакомятся с генеративными моделями. Кроме того, в рамках курса слушатели узнают о поведении нейронных сетей для задачи зрения и признаках что они порождают. Научатся с ними работать. Затем в курсе будет показана работа с 3D объектами. Будет рассказано об математической модели камеры и способах восстановить глубину и сцену по изображениям. Так же будет рассказаны основы графики и инструменты машинного обучения и анализа 3D объектов в сцене.
Цель освоения дисциплины

Цель освоения дисциплины

  • Работать с данными для характерных задач CV;
  • Подбирать алгоритм для конкретной задачи CV;
  • Эффективно обучать модели CV;
  • Оптимизировать модель для инференса.
Планируемые результаты обучения

Планируемые результаты обучения

  • Понимать основные задачи и области применения классической обработки изображений (морфологические операции, выделение границ и пр.).
  • Владеть базовыми математическими понятиями свёртки и уметь применять различные типы фильтров (линейных, гауссовых и т.д.).
  • Уметь работать с цветовыми пространствами (RGB, HSV и др.) и выполнять афинные преобразования изображений.
  • На базовом уровне описывать и реализовывать алгоритмы выделения границ и фильтрацию изображений.
  • Понимать, как работают алгоритмы SURF, SIFT, ORB и их отличие друг от друга, уметь использовать их для сопоставления ключевых точек и обнаружения объектов.
  • Ориентироваться в современных архитектурах глубоких свёрточных сетей для классификации изображений.
  • Понимать важность предобученных моделей и знать способы корректной инициализации весов.
  • Уметь настраивать функции потерь, выбирать оптимизаторы и шедулеры в зависимости от задачи.
  • Владеть навыками настройки гиперпараметров, применять Label Smoothing, аугментации и TTA.
  • Разбираться, как исторические модели (LeNet, AlexNet) привели к созданию современных мощных архитектур.
  • Знать основные датасеты для object detection и способы оценки качества (IoU, mAP).
  • Уметь объяснить архитектуру и принципы работы двухстадийных моделей (Faster R-CNN, Mask R-CNN) и одностадийных моделей (SSD, YOLO).
  • Понимать, в каких случаях выбирать ту или иную архитектуру (двухстадийную или одностадийную) с учётом требований по скорости и точности.
  • Уметь анализировать и настраивать функции потерь, ориентированные на задачи детекции (например, Focal Loss, IoU Loss).
  • Понимать различие между семантической сегментацией и сегментацией объектов (instance segmentation).
  • Ориентироваться в базовых принципах FCN и уметь объяснить, как работают операции upsampling, unpooling и т.д.
  • Знать ключевые архитектуры (UNet, SegNet, DeeplabV3+, HRNet) и их основные отличия.
  • Уметь выбирать оптимальные модели и подходы к сегментации в зависимости от типа задачи и ограничений по ресурсам.
  • Понимать, в чём заключается задача ReID, знать основные датасеты и метрики верификации.
  • Владеть знаниями о классических методах трекинга (фильтр Калмана, SORT) и понимать, как интегрировать нейросети в процесс трекинга.
  • Уметь применять современные методы трекинга (DeepSORT, ByteTrack) и интерпретировать метрики (MOTA, HOTA).
  • Разбираться в пайплайне распознавания лиц и знать особенности построения систем ре-идентификации объектов.
  • Знать основные архитектуры генеративных моделей: AE, VAE, GAN.
  • Понимать механику репараметризации в VAE и уметь объяснить проблемы и тонкости обучения GAN.
  • Ориентироваться в принципах и алгоритмах диффузионных моделей, уметь обсуждать их применение в реальных задачах (text-to-image и др.).
  • Уметь анализировать и сравнивать различные генеративные модели, понимать их сильные и слабые стороны.
  • Понимать концепцию «foundation models» и области их использования.
  • Владеть базовыми представлениями о self-supervised и semi-supervised подходах обучения на больших данных.
  • Уметь оценивать этические аспекты, риски и правовые вопросы при работе с крупными моделями.
  • Разбираться в принципах transfer learning для CV-задач и знать примеры моделей, сочетающих текст и изображение (CLIP и аналоги).
  • Понимать понятие эффективности модели и основные компромиссы между точностью, скоростью и размером.
  • Владеть знаниями о различных методах прунинга (структурный, неструктурный) и квантования (int8, динамическое/статическое, симметричное/асимметричное).
  • Уметь применять ONNX Runtime для квантизации моделей (PTQ) и проведения инференса, знать основные параметры квантизации и opset.
  • Понимать идею дистилляции знаний и примеры её использования для упрощения глубоких архитектур при сохранении качества.
  • Уметь оценивать результаты экспериментов (accuracy, latency, размер модели) и интерпретировать плюсы и минусы выбранного подхода.
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Работа с изображениями. Классические методы обработки изображений. Понятие свёртки как основного оператора CV
  • Задача классификации: лучшие практики
  • Детекция
  • Сегментация
  • Трекинг + Re-Identification
  • Генеративные модели
  • Foundation Models
  • Ускорение моделей в CV
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание #1
  • неблокирующий Домашнее задание #2
  • неблокирующий Домашнее задание #3
  • неблокирующий Домашнее задание #4
  • неблокирующий Домашнее задание #5 (бонус)
Промежуточная аттестация

Промежуточная аттестация

  • 2024/2025 3rd module
    ROUND(0.9*MAX(SUM / N, 10) + 0.1*EXAM), где N - количество домашних заданий на курсе без учета бонусных заданий, SUM - сумма баллов за все задания на курсе с учетом бонусных заданий, EXAM - оценка на экзамене.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Шилина, О. И. Цифровая обработка изображений : учебно-методическое пособие / О. И. Шилина, Д. А. Наумов, Е. А. Уварова. — Рязань : РГРТУ, 2021. — 265 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/310580 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Цифровая обработка изображений, Гонсалес, Р., 2012

Авторы

  • Ахмедова Гюнай Интигам кызы