Мультимодальные модели (CLIP, SigLIP)

Общие понятия

Мультимодальные модели - это тип нейронных сетей, которые могут обрабатывать и соединять информацию из разных режимов или типов данных (например, изображения и текст одновременно). Они позволяют находить сходства между разными типами данных.

CLIP (Contrastive Language-Image Pre-training)

CLIP - это мультимодельная архитектура, разработанная OpenAI, которая обучается на парах изображение-текст.

Архитектура CLIP

Общий энкодер для изображений и текста
Обучение на большом наборе пар изображение-описание
Контрастивное обучение для выравнивания представлений

Применение CLIP

Нулевая классификация изображений (zero-shot image classification)
Изображения по текстовому запросу
Поиск изображений по текстовому описанию
Оценка сходства изображений и текста

SigLIP (Sigmoid Loss for Language Image Pre-training)

SigLIP - это улучшенная версия CLIP, разработанная Google, которая использует сигмоидную функцию потерь вместо softmax.

Отличия SigLIP от CLIP

Использует сигмоидную функцию потерь вместо softmax
Позволяет использовать отрицательные примеры независимо для каждого положительного примера
Лучшая производительность на задачах сопоставления изображений и текста
Обучение на отдельных парах изображение-текст, а не на батчах

Архитектура SigLIP

Общий энкодер изображений (часто Vision Transformer)
Общий энкодер текста (обычно Transformer)
Объединение через скалярное произведение

Преимущества SigLIP

Более эффективное использование данных
Лучшее качество на задачах нулевой классификации
Возможность обучения на несбалансированных датасетах

Применение в поиске по фото

В системе Wildberries

SigLIP-эмбеддинги используются для преобразования изображений в векторы
Эти векторы используются для поиска похожих товаров в векторной базе данных
Позволяет находить товары по визуальному сходству

Процесс преобразования

Изображение проходит через энкодер изображений SigLIP
Получается вектор в многомерном пространстве
Вектор отправляется в Qdrant для поиска ближайших соседей
Найденные товары возвращаются пользователю

Сравнение CLIP и SigLIP

Особенность	CLIP	SigLIP
Функция потерь	Softmax	Sigmoid
Обработка отрицательных примеров	В батче	Индивидуально
Эффективность	Хорошая	Лучше
Требования к данным	Балансировка	Гибче
Качество сопоставления	Высокое	Высокое/лучше

Другие мультимодальные модели

ALIGN (A Large-scale ImaGe and Noisy-text embedding)

Ранняя работа в мультимодальных представлениях
Использует огромные датасеты с шумными описаниями

ALBEF (Align before Fuse)

Сначала выравнивает изображения и текст
Затем объединяет информацию для задач более высокого уровня

Ming (от inclusionAI)

Семейство мультимодальных моделей с архитектурой Sparse Mixture-of-Experts
Поддержка ввода (изображения, текст, видео, аудио) и вывода (изображения, текст, аудио) в различных модальностях
Достижение рекордных результатов в распознавании речи и диалектов
Использование парадигмы генеративной сегментации как редактирования

Фреймворки для мультимодальных моделей

LMMs Engine

Единый движок для обучения мультимодальных моделей
Поддерживает 19+ архитектур, включая Qwen3-VL, Qwen2.5-Omni, LLaVA-OneVision и другие
Простая, гибкая и мощная архитектура для обучения моделей, понимающих текст, изображения, аудио и видео
Включает оптимизации производительности: FSDP2, Flash Attention, Liger kernels и другие

Future направления

Лучшая интеграция с LLM
Улучшение качества на различных языках
Расширение на другие модальности (аудио, видео)
Более эффективные архитектуры для ресурсоограниченных устройств
Парадигма генеративной сегментации как редактирования (Generative Segmentation-as-Editing) для более точного контроля

Связи с другими темами

[[ming.md|Ming]] - Современная мультимодальная модель с семейством архитектур
[[ming_flash_omni_preview.md|Ming Flash Omni Preview]] - Флагманская модель с архитектурой Sparse MoE
[[ai/computer_vision/visual_search/wildberries_photo_search.md]] - Использование SigLIP в поиске по фото
[[../ocr/object_detection_yolo_ocr.md]] - Комбинация визуальных и текстовых данных
[[ai/llm/foundation_models.md]] - Базовые модели для мультимодальных приложений
[[ai/computer_vision/vector_search.md]] - Использование эмбеддингов для поиска
[[ai/machine_learning/machine_learning.md]] - Общие понятия о машинном обучении и нейронных сетях
[[ai/llm/data_quality.md]] - Использование LLM для генерации тегов (как в Wildberries)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Мультимодальные модели (CLIP, SigLIP)

Общие понятия

CLIP (Contrastive Language-Image Pre-training)

Архитектура CLIP

Применение CLIP

SigLIP (Sigmoid Loss for Language Image Pre-training)

Отличия SigLIP от CLIP

Архитектура SigLIP

Преимущества SigLIP

Применение в поиске по фото

В системе Wildberries

Процесс преобразования

Сравнение CLIP и SigLIP

Другие мультимодальные модели

ALIGN (A Large-scale ImaGe and Noisy-text embedding)

ALBEF (Align before Fuse)

Ming (от inclusionAI)

Фреймворки для мультимодальных моделей

LMMs Engine

Future направления

Связи с другими темами

FilesExpand file tree

multimodal_models.md

Latest commit

History

multimodal_models.md

File metadata and controls

Мультимодальные модели (CLIP, SigLIP)

Общие понятия

CLIP (Contrastive Language-Image Pre-training)

Архитектура CLIP

Применение CLIP

SigLIP (Sigmoid Loss for Language Image Pre-training)

Отличия SigLIP от CLIP

Архитектура SigLIP

Преимущества SigLIP

Применение в поиске по фото

В системе Wildberries

Процесс преобразования

Сравнение CLIP и SigLIP

Другие мультимодальные модели

ALIGN (A Large-scale ImaGe and Noisy-text embedding)

ALBEF (Align before Fuse)

Ming (от inclusionAI)

Фреймворки для мультимодальных моделей

LMMs Engine

Future направления

Связи с другими темами