2024/2025





Компьютерное зрение
Статус:
Маго-лего
Когда читается:
3 модуль
Онлайн-часы:
20
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Программа дисциплины
Аннотация
Курс охватывает основные задачи компьютерного зрения. В рамках курса слушатели научатся программно обрабатывать изображения, поймут на чем основаны все фоторедакторы. Затем они познакомятся с глубинным обучением для основных задач с учителем, возникающих в зрении, а именно классификации, сегментации и детекции. В дополнении к задаче с учителем, слушатели познакомятся с генеративными моделями. Кроме того, в рамках курса слушатели узнают о поведении нейронных сетей для задачи зрения и признаках что они порождают. Научатся с ними работать. Затем в курсе будет показана работа с 3D объектами. Будет рассказано об математической модели камеры и способах восстановить глубину и сцену по изображениям. Так же будет рассказаны основы графики и инструменты машинного обучения и анализа 3D объектов в сцене.
Цель освоения дисциплины
- Работать с данными для характерных задач CV;
- Подбирать алгоритм для конкретной задачи CV;
- Эффективно обучать модели CV;
- Оптимизировать модель для инференса.
Планируемые результаты обучения
- Понимать основные задачи и области применения классической обработки изображений (морфологические операции, выделение границ и пр.).
- Владеть базовыми математическими понятиями свёртки и уметь применять различные типы фильтров (линейных, гауссовых и т.д.).
- Уметь работать с цветовыми пространствами (RGB, HSV и др.) и выполнять афинные преобразования изображений.
- На базовом уровне описывать и реализовывать алгоритмы выделения границ и фильтрацию изображений.
- Понимать, как работают алгоритмы SURF, SIFT, ORB и их отличие друг от друга, уметь использовать их для сопоставления ключевых точек и обнаружения объектов.
- Ориентироваться в современных архитектурах глубоких свёрточных сетей для классификации изображений.
- Понимать важность предобученных моделей и знать способы корректной инициализации весов.
- Уметь настраивать функции потерь, выбирать оптимизаторы и шедулеры в зависимости от задачи.
- Владеть навыками настройки гиперпараметров, применять Label Smoothing, аугментации и TTA.
- Разбираться, как исторические модели (LeNet, AlexNet) привели к созданию современных мощных архитектур.
- Знать основные датасеты для object detection и способы оценки качества (IoU, mAP).
- Уметь объяснить архитектуру и принципы работы двухстадийных моделей (Faster R-CNN, Mask R-CNN) и одностадийных моделей (SSD, YOLO).
- Понимать, в каких случаях выбирать ту или иную архитектуру (двухстадийную или одностадийную) с учётом требований по скорости и точности.
- Уметь анализировать и настраивать функции потерь, ориентированные на задачи детекции (например, Focal Loss, IoU Loss).
- Понимать различие между семантической сегментацией и сегментацией объектов (instance segmentation).
- Ориентироваться в базовых принципах FCN и уметь объяснить, как работают операции upsampling, unpooling и т.д.
- Знать ключевые архитектуры (UNet, SegNet, DeeplabV3+, HRNet) и их основные отличия.
- Уметь выбирать оптимальные модели и подходы к сегментации в зависимости от типа задачи и ограничений по ресурсам.
- Понимать, в чём заключается задача ReID, знать основные датасеты и метрики верификации.
- Владеть знаниями о классических методах трекинга (фильтр Калмана, SORT) и понимать, как интегрировать нейросети в процесс трекинга.
- Уметь применять современные методы трекинга (DeepSORT, ByteTrack) и интерпретировать метрики (MOTA, HOTA).
- Разбираться в пайплайне распознавания лиц и знать особенности построения систем ре-идентификации объектов.
- Знать основные архитектуры генеративных моделей: AE, VAE, GAN.
- Понимать механику репараметризации в VAE и уметь объяснить проблемы и тонкости обучения GAN.
- Ориентироваться в принципах и алгоритмах диффузионных моделей, уметь обсуждать их применение в реальных задачах (text-to-image и др.).
- Уметь анализировать и сравнивать различные генеративные модели, понимать их сильные и слабые стороны.
- Понимать концепцию «foundation models» и области их использования.
- Владеть базовыми представлениями о self-supervised и semi-supervised подходах обучения на больших данных.
- Уметь оценивать этические аспекты, риски и правовые вопросы при работе с крупными моделями.
- Разбираться в принципах transfer learning для CV-задач и знать примеры моделей, сочетающих текст и изображение (CLIP и аналоги).
- Понимать понятие эффективности модели и основные компромиссы между точностью, скоростью и размером.
- Владеть знаниями о различных методах прунинга (структурный, неструктурный) и квантования (int8, динамическое/статическое, симметричное/асимметричное).
- Уметь применять ONNX Runtime для квантизации моделей (PTQ) и проведения инференса, знать основные параметры квантизации и opset.
- Понимать идею дистилляции знаний и примеры её использования для упрощения глубоких архитектур при сохранении качества.
- Уметь оценивать результаты экспериментов (accuracy, latency, размер модели) и интерпретировать плюсы и минусы выбранного подхода.
Содержание учебной дисциплины
- Работа с изображениями. Классические методы обработки изображений. Понятие свёртки как основного оператора CV
- Задача классификации: лучшие практики
- Детекция
- Сегментация
- Трекинг + Re-Identification
- Генеративные модели
- Foundation Models
- Ускорение моделей в CV
Элементы контроля
- Домашнее задание #1
- Домашнее задание #2
- Домашнее задание #3
- Домашнее задание #4
- Домашнее задание #5 (бонус)
Промежуточная аттестация
- 2024/2025 3rd moduleROUND(0.9*MAX(SUM / N, 10) + 0.1*EXAM), где N - количество домашних заданий на курсе без учета бонусных заданий, SUM - сумма баллов за все задания на курсе с учетом бонусных заданий, EXAM - оценка на экзамене.
Список литературы
Рекомендуемая основная литература
- Шилина, О. И. Цифровая обработка изображений : учебно-методическое пособие / О. И. Шилина, Д. А. Наумов, Е. А. Уварова. — Рязань : РГРТУ, 2021. — 265 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/310580 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.
Рекомендуемая дополнительная литература
- Цифровая обработка изображений, Гонсалес, Р., 2012