• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
2025/2026

Векторный поиск

Статус: Маго-лего
Когда читается: 2 модуль
Охват аудитории: для своего кампуса
Язык: русский
Кредиты: 3
Контактные часы: 40

Программа дисциплины

Аннотация

Курс посвящён современным методам векторного поиска — технологии, лежащей в основе поисковых систем, рекомендательных моделей и RAG-подходов. Студенты разберут принципы работы энкодеров и представлений dense, sparse и multivector-типа, изучат ключевые ANN-алгоритмы (LSH, KD-Tree, Ball-Tree, Annoy, IVF-PQ, HNSW) и научатся выбирать подходящие методы под разные задачи. На практике будут использоваться как библиотечные инструменты (Faiss и др.), так и векторные поисковые движки на примере Qdrant: студенты построят и оптимизируют индексы, поэкспериментируют с алгоритмами, освоят фильтрацию по метаданным и квантизацию векторов. Курс подойдёт тем, кто хочет понимать современные retrieval-системы и уметь проектировать эффективные и масштабируемые решения.
Цель освоения дисциплины

Цель освоения дисциплины

  • - Ознакомление с технологией векторного поиска, областями его применения, ключевыми достоинствами и ограничениями
  • - Формирования понимания алгоритмов приближенного поиска ближайших соседей (ANN), и умение выбирать алгоритм подходящий под конкретную задачу
  • - Освоение принципов работы энкодеров для генерации эмбеддингов, включая dense-, sparse- и multivector-представления, а также методов обучения моделей для извлечения информации
  • - Приобретение навыков построения поисковых систем, основанных как на одном типе данных и их представлений, так и гибридных, объединяющих данные разных модальностей и разные типы векторов.
  • - Умение оценивать построенные системы с точки зрения точности и производительности
  • - Понимание механизмов фильтрации по метаданным и интеграции их с векторным поиском
  • - Развитие практической интуиции в оптимизации векторных систем, включая понимание алгоритмов квантизации векторов и умение применять их для уменьшения объема хранения и ускорения поиска
  • - Знание продвинутых методов поиска, включая exploratory search, а также принципов навигации и анализа векторных пространств за пределами классического поиска ближайших соседей
Планируемые результаты обучения

Планируемые результаты обучения

  • - Глубокое понимание технологии векторного поиска, области его применения, ключевых достоинств и ограничений
  • - Знание алгоритмов приближенного поиска ближайших соседей LSH, KD-tree, Ball-tree, ANNOY, IVFPQ, HNSW, их тонкостей, а также опыт их практического применения
  • - Умение работать с векторами разных типов: dense, sparse (bm25, splade), late interaction (ColBERT, ColPali), обоснованно выбирать типы векторов с учетом их особенностей
  • - Обретение навыков построения поисковых систем, использующих как одноэтапные механизмы извлечения информации с одним типом данных и векторов, так и многоэтапных, работающих с разными модальностями и видами векторов
  • - Понимание способов обучения моделей для генерации векторов в сфере извлечения информации
  • - Получение практических навыков оценивания результатов работы поисковых алгоритмов
  • - Освоение принципов работы алгоритмов приближенного поиска с фильтрацией по метаданным (Filtrable HNSW, ACORN-1)
  • - Развитие интуиции для нахождения узких мест в реализованных поисковых решениях, умение их подтверждать и оптимизировать, в том числе с использованием квантизации векторов
  • - Ознакомление с продвинутыми методами поиска, выходящих за рамки классического поиска ближайших соседей
Содержание учебной дисциплины

Содержание учебной дисциплины

  • Что такое векторный поиск?
  • Плотные вектора
  • Алгоритмы приближенного поиска ближайших соседей
  • Погружение в HNSW
  • Векторные базы данных
  • Разреженные вектора
  • Гибридный поиск
  • Извлечение документов с помощью Visual Language моделей
  • Продвинутые методы поиска и оптимизации
  • Извлечение информации в RAG
Элементы контроля

Элементы контроля

  • неблокирующий Домашнее задание 1
    Реализация метрик расстояния используемых для сравнения векторов на основе циклов, и на основе numpy. Сравнение работы реализованных методов. Генерация статических векторов, построение визуализаций векторных пространств с помощью PCA, t-SNE, UMAP. Выдается после первой лекции
  • неблокирующий Домашнее задание 2
    Сравнение алгоритмов приближенного поиска ближайших соседей: ANNOY, IVFPQ, HNSW. Исследование влияние различных значений гиперпараметров алгоритмов на точность и скорость поиска. Выдается после 3 лекции
  • неблокирующий Домашнее задание 3
    Использование векторной базы данных Qdrant. Сравнение загрузки, скорости индексации и поиска в Qdrant с библиотеками векторного поиска. Применение CRUD операций на созданных коллекциях данных. Выдается после 5 лекции
  • неблокирующий Домашнее задание 4
    Реализация поиска с фильтрацией по метаданным с помощью построения индексов в Qdrant.
  • неблокирующий Домашнее задание 5
    Использование разреженных векторов и векторов позднего взаимодействия для реализации поиска на текстовых данных.
  • неблокирующий Домашнее задание 6
    Построение гибридного поиска с использованием плотных и разреженных векторов, а также ранжирования результатов с использованием векторов позднего взаимодействия и реранкеров
  • неблокирующий Бонусное домашнее задание
    Решение игры основанной на векторных представлениях
  • неблокирующий Контрольная работа
    Проходит в устном формате на платформе Zoom. Включает в себя 4-5 вопросов на общее понимание материалов курса на основе лекций 1-10.
Промежуточная аттестация

Промежуточная аттестация

  • 2025/2026 2nd module
    Итог = Округление(min(0.1 * ДЗ_1 + 0.2 * ДЗ_2 + 0.2 * ДЗ_3 + 0.1 * ДЗ_4 + 0.2 * ДЗ_5 + 0.1 * ДЗ_6 + 0.2 *ДЗ_Бонус + 0.2 * КР), 10), где ДЗ_1, ДЗ_2, ДЗ_3, ДЗ_4, ДЗ_5, ДЗ_6 — оценка за каждое из обязательных домашних заданий, ДЗ_Бонус - оценка за бонусное домашнее задание, КР — оценка за контрольную работу. Оценка выставляется на основе пройденных элементов контроля, экзамена нет.
Список литературы

Список литературы

Рекомендуемая основная литература

  • Тюкачев, Н. А. C#. Программирование 2D и 3D векторной графики : учебное пособие для вузов / Н. А. Тюкачев, В. Г. Хлебостроев. — 5-е изд., стер. — Санкт-Петербург : Лань, 2024. — 320 с. — ISBN 978-5-507-47565-0. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/388919 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Рекомендуемая дополнительная литература

  • Семенов, Г. А. Теория вероятностей и математическая статистика. Случайные векторы: задачник : учебное пособие / Г. А. Семенов. — Санкт-Петербург : СПбГУТ им. М.А. Бонч-Бруевича, 2021. — 37 с. — Текст : электронный // Лань : электронно-библиотечная система. — URL: https://e.lanbook.com/book/279437 (дата обращения: 00.00.0000). — Режим доступа: для авториз. пользователей.

Авторы

  • Ахмедова Гюнай Интигам кызы