Компьютерное зрение

2024/2025

Статус: Маго-лего

Кто читает: Департамент больших данных и информационного поиска

Когда читается: 3 модуль

Онлайн-часы: 20

Охват аудитории: для своего кампуса

Преподаватели: Башаров Илья Валерьевич

Язык: русский

Кредиты: 3

Полная версия программы учебной дисциплины Задать вопрос

Аннотация

Курс охватывает основные задачи компьютерного зрения. В рамках курса слушатели научатся программно обрабатывать изображения, поймут на чем основаны все фоторедакторы. Затем они познакомятся с глубинным обучением для основных задач с учителем, возникающих в зрении, а именно классификации, сегментации и детекции. В дополнении к задаче с учителем, слушатели познакомятся с генеративными моделями. Кроме того, в рамках курса слушатели узнают о поведении нейронных сетей для задачи зрения и признаках что они порождают. Научатся с ними работать. Затем в курсе будет показана работа с 3D объектами. Будет рассказано об математической модели камеры и способах восстановить глубину и сцену по изображениям. Так же будет рассказаны основы графики и инструменты машинного обучения и анализа 3D объектов в сцене.

Цель освоения дисциплины

Работать с данными для характерных задач CV;
Подбирать алгоритм для конкретной задачи CV;
Эффективно обучать модели CV;
Оптимизировать модель для инференса.

Планируемые результаты обучения

Понимать основные задачи и области применения классической обработки изображений (морфологические операции, выделение границ и пр.).
Владеть базовыми математическими понятиями свёртки и уметь применять различные типы фильтров (линейных, гауссовых и т.д.).
Уметь работать с цветовыми пространствами (RGB, HSV и др.) и выполнять афинные преобразования изображений.
На базовом уровне описывать и реализовывать алгоритмы выделения границ и фильтрацию изображений.
Понимать, как работают алгоритмы SURF, SIFT, ORB и их отличие друг от друга, уметь использовать их для сопоставления ключевых точек и обнаружения объектов.
Ориентироваться в современных архитектурах глубоких свёрточных сетей для классификации изображений.
Понимать важность предобученных моделей и знать способы корректной инициализации весов.
Уметь настраивать функции потерь, выбирать оптимизаторы и шедулеры в зависимости от задачи.
Владеть навыками настройки гиперпараметров, применять Label Smoothing, аугментации и TTA.
Разбираться, как исторические модели (LeNet, AlexNet) привели к созданию современных мощных архитектур.
Знать основные датасеты для object detection и способы оценки качества (IoU, mAP).
Уметь объяснить архитектуру и принципы работы двухстадийных моделей (Faster R-CNN, Mask R-CNN) и одностадийных моделей (SSD, YOLO).
Понимать, в каких случаях выбирать ту или иную архитектуру (двухстадийную или одностадийную) с учётом требований по скорости и точности.
Уметь анализировать и настраивать функции потерь, ориентированные на задачи детекции (например, Focal Loss, IoU Loss).
Понимать различие между семантической сегментацией и сегментацией объектов (instance segmentation).
Ориентироваться в базовых принципах FCN и уметь объяснить, как работают операции upsampling, unpooling и т.д.
Знать ключевые архитектуры (UNet, SegNet, DeeplabV3+, HRNet) и их основные отличия.
Уметь выбирать оптимальные модели и подходы к сегментации в зависимости от типа задачи и ограничений по ресурсам.
Понимать, в чём заключается задача ReID, знать основные датасеты и метрики верификации.
Владеть знаниями о классических методах трекинга (фильтр Калмана, SORT) и понимать, как интегрировать нейросети в процесс трекинга.
Уметь применять современные методы трекинга (DeepSORT, ByteTrack) и интерпретировать метрики (MOTA, HOTA).
Разбираться в пайплайне распознавания лиц и знать особенности построения систем ре-идентификации объектов.
Знать основные архитектуры генеративных моделей: AE, VAE, GAN.
Понимать механику репараметризации в VAE и уметь объяснить проблемы и тонкости обучения GAN.
Ориентироваться в принципах и алгоритмах диффузионных моделей, уметь обсуждать их применение в реальных задачах (text-to-image и др.).
Уметь анализировать и сравнивать различные генеративные модели, понимать их сильные и слабые стороны.
Понимать концепцию «foundation models» и области их использования.
Владеть базовыми представлениями о self-supervised и semi-supervised подходах обучения на больших данных.
Уметь оценивать этические аспекты, риски и правовые вопросы при работе с крупными моделями.
Разбираться в принципах transfer learning для CV-задач и знать примеры моделей, сочетающих текст и изображение (CLIP и аналоги).
Понимать понятие эффективности модели и основные компромиссы между точностью, скоростью и размером.
Владеть знаниями о различных методах прунинга (структурный, неструктурный) и квантования (int8, динамическое/статическое, симметричное/асимметричное).
Уметь применять ONNX Runtime для квантизации моделей (PTQ) и проведения инференса, знать основные параметры квантизации и opset.
Понимать идею дистилляции знаний и примеры её использования для упрощения глубоких архитектур при сохранении качества.
Уметь оценивать результаты экспериментов (accuracy, latency, размер модели) и интерпретировать плюсы и минусы выбранного подхода.

Содержание учебной дисциплины

Работа с изображениями. Классические методы обработки изображений. Понятие свёртки как основного оператора CV
Задача классификации: лучшие практики
Детекция
Сегментация
Трекинг + Re-Identification
Генеративные модели
Foundation Models
Ускорение моделей в CV

Элементы контроля

Домашнее задание #1
Домашнее задание #2
Домашнее задание #3
Домашнее задание #4
Домашнее задание #5 (бонус)

Промежуточная аттестация

2024/2025 3rd module
ROUND(0.9*MAX(SUM / N, 10) + 0.1*EXAM), где N - количество домашних заданий на курсе без учета бонусных заданий, SUM - сумма баллов за все задания на курсе с учетом бонусных заданий, EXAM - оценка на экзамене.

Список литературы

Авторы

Ахмедова Гюнай Интигам кызы

Программа дисциплины