Мультимодальные модели - это тип нейронных сетей, которые могут обрабатывать и соединять информацию из разных режимов или типов данных (например, изображения и текст одновременно). Они позволяют находить сходства между разными типами данных.
CLIP - это мультимодельная архитектура, разработанная OpenAI, которая обучается на парах изображение-текст.
- Общий энкодер для изображений и текста
- Обучение на большом наборе пар изображение-описание
- Контрастивное обучение для выравнивания представлений
- Нулевая классификация изображений (zero-shot image classification)
- Изображения по текстовому запросу
- Поиск изображений по текстовому описанию
- Оценка сходства изображений и текста
SigLIP - это улучшенная версия CLIP, разработанная Google, которая использует сигмоидную функцию потерь вместо softmax.
- Использует сигмоидную функцию потерь вместо softmax
- Позволяет использовать отрицательные примеры независимо для каждого положительного примера
- Лучшая производительность на задачах сопоставления изображений и текста
- Обучение на отдельных парах изображение-текст, а не на батчах
- Общий энкодер изображений (часто Vision Transformer)
- Общий энкодер текста (обычно Transformer)
- Объединение через скалярное произведение
- Более эффективное использование данных
- Лучшее качество на задачах нулевой классификации
- Возможность обучения на несбалансированных датасетах
- SigLIP-эмбеддинги используются для преобразования изображений в векторы
- Эти векторы используются для поиска похожих товаров в векторной базе данных
- Позволяет находить товары по визуальному сходству
- Изображение проходит через энкодер изображений SigLIP
- Получается вектор в многомерном пространстве
- Вектор отправляется в Qdrant для поиска ближайших соседей
- Найденные товары возвращаются пользователю
| Особенность | CLIP | SigLIP |
|---|---|---|
| Функция потерь | Softmax | Sigmoid |
| Обработка отрицательных примеров | В батче | Индивидуально |
| Эффективность | Хорошая | Лучше |
| Требования к данным | Балансировка | Гибче |
| Качество сопоставления | Высокое | Высокое/лучше |
- Ранняя работа в мультимодальных представлениях
- Использует огромные датасеты с шумными описаниями
- Сначала выравнивает изображения и текст
- Затем объединяет информацию для задач более высокого уровня
- Семейство мультимодальных моделей с архитектурой Sparse Mixture-of-Experts
- Поддержка ввода (изображения, текст, видео, аудио) и вывода (изображения, текст, аудио) в различных модальностях
- Достижение рекордных результатов в распознавании речи и диалектов
- Использование парадигмы генеративной сегментации как редактирования
- Единый движок для обучения мультимодальных моделей
- Поддерживает 19+ архитектур, включая Qwen3-VL, Qwen2.5-Omni, LLaVA-OneVision и другие
- Простая, гибкая и мощная архитектура для обучения моделей, понимающих текст, изображения, аудио и видео
- Включает оптимизации производительности: FSDP2, Flash Attention, Liger kernels и другие
- Лучшая интеграция с LLM
- Улучшение качества на различных языках
- Расширение на другие модальности (аудио, видео)
- Более эффективные архитектуры для ресурсоограниченных устройств
- Парадигма генеративной сегментации как редактирования (Generative Segmentation-as-Editing) для более точного контроля
- [[ming.md|Ming]] - Современная мультимодальная модель с семейством архитектур
- [[ming_flash_omni_preview.md|Ming Flash Omni Preview]] - Флагманская модель с архитектурой Sparse MoE
- [[ai/computer_vision/visual_search/wildberries_photo_search.md]] - Использование SigLIP в поиске по фото
- [[../ocr/object_detection_yolo_ocr.md]] - Комбинация визуальных и текстовых данных
- [[ai/llm/foundation_models.md]] - Базовые модели для мультимодальных приложений
- [[ai/computer_vision/vector_search.md]] - Использование эмбеддингов для поиска
- [[ai/machine_learning/machine_learning.md]] - Общие понятия о машинном обучении и нейронных сетях
- [[ai/llm/data_quality.md]] - Использование LLM для генерации тегов (как в Wildberries)