Merge pull request #42 from Comfy-Org/ClipVisionEncode

comfyui-wiki · web-flow · commit cd086990d05f · 2025-07-03T01:02:53.000+08:00
Update ClipVisionEncode docs
diff --git a/comfyui_embedded_docs/docs/ClipVisionEncode/en.md b/comfyui_embedded_docs/docs/ClipVisionEncode/en.md
@@ -1,14 +1,27 @@
-The CLIPVisionEncode node is designed to encode images using a CLIP vision model, transforming visual input into a format suitable for further processing or analysis. This node abstracts the complexity of image encoding, offering a streamlined interface for converting images into encoded representations.
+The `CLIP Vision Encode` node is an image encoding node in ComfyUI, used to convert input images into visual feature vectors through the CLIP Vision model. This node is an important bridge connecting image and text understanding, and is widely used in various AI image generation and processing workflows.
+
+**Node Functionality**
+
+- **Image feature extraction**: Converts input images into high-dimensional feature vectors
+- **Multimodal bridging**: Provides a foundation for joint processing of images and text
+- **Conditional generation**: Provides visual conditions for image-based conditional generation
 
 ## Inputs
 
-| Parameter            | Comfy dtype          | Description |
-|----------------------|-----------------------|-------------|
-| `clip_vision`        | `CLIP_VISION`        | The CLIP vision model used for encoding the image. It is crucial for the encoding process, as it determines the method and quality of the encoding. |
-| `image`              | `IMAGE`              | The image to be encoded. This input is essential for generating the encoded representation of the visual content. |
+| Parameter Name | Data Type    | Description                                                      |
+| -------------- | -----------  | --------------------------------------------------------------- |
+| `clip_vision`  | CLIP_VISION  | CLIP vision model, usually loaded via the CLIPVisionLoader node |
+| `image`        | IMAGE        | The input image to be encoded                                   |
+| `crop`         | Dropdown     | Image cropping method, options: center (center crop), none (no crop) |
 
 ## Outputs
 
-| Parameter             | Comfy dtype            | Description |
-|-----------------------|------------------------|-------------|
-| `clip_vision_output`  | `CLIP_VISION_OUTPUT`  | The encoded representation of the input image, produced by the CLIP vision model. This output is suitable for further processing or analysis. |
+| Output Name         | Data Type           | Description                |
+| ------------------- | ------------------ | -------------------------- |
+| CLIP_VISION_OUTPUT  | CLIP_VISION_OUTPUT | Encoded visual features    |
+
+This output object contains:
+- `last_hidden_state`: The last hidden state
+- `image_embeds`: Image embedding vector
+- `penultimate_hidden_states`: The penultimate hidden state
+- `mm_projected`: Multimodal projection result (if available)
diff --git a/comfyui_embedded_docs/docs/ClipVisionEncode/es.md b/comfyui_embedded_docs/docs/ClipVisionEncode/es.md
@@ -1,14 +1,27 @@
-El nodo CLIPVisionEncode está diseñado para codificar imágenes utilizando un modelo de visión CLIP, transformando la entrada visual en un formato adecuado para un procesamiento o análisis posterior. Este nodo abstrae la complejidad de la codificación de imágenes, ofreciendo una interfaz simplificada para convertir imágenes en representaciones codificadas.
+El nodo `CLIP Vision Encode` es un nodo de codificación de imágenes en ComfyUI, utilizado para convertir imágenes de entrada en vectores de características visuales mediante el modelo CLIP Vision. Este nodo es un puente importante que conecta la comprensión de imágenes y textos, y se utiliza ampliamente en varios flujos de trabajo de generación y procesamiento de imágenes con IA.
+
+**Funcionalidad del nodo**
+
+- **Extracción de características de imagen**: Convierte imágenes de entrada en vectores de características de alta dimensión
+- **Puente multimodal**: Proporciona una base para el procesamiento conjunto de imágenes y textos
+- **Generación condicional**: Proporciona condiciones visuales para la generación condicional basada en imágenes
 
 ## Entradas
 
-| Parámetro            | Tipo Comfy          | Descripción |
-|----------------------|---------------------|-------------|
-| `clip_vision`        | `CLIP_VISION`       | El modelo de visión CLIP utilizado para codificar la imagen. Es crucial para el proceso de codificación, ya que determina el método y la calidad de la codificación. |
-| `image`              | `IMAGE`             | La imagen que se va a codificar. Esta entrada es esencial para generar la representación codificada del contenido visual. |
+| Nombre del parámetro | Tipo de dato   | Descripción                                                      |
+| -------------------- | -------------  | --------------------------------------------------------------- |
+| `clip_vision`        | CLIP_VISION    | Modelo CLIP vision, normalmente cargado mediante el nodo CLIPVisionLoader |
+| `image`              | IMAGE          | La imagen de entrada a codificar                                 |
+| `crop`               | Dropdown       | Método de recorte de imagen, opciones: center (recorte centrado), none (sin recorte) |
 
 ## Salidas
 
-| Parámetro             | Tipo Comfy            | Descripción |
-|-----------------------|-----------------------|-------------|
-| `clip_vision_output`  | `CLIP_VISION_OUTPUT`  | La representación codificada de la imagen de entrada, producida por el modelo de visión CLIP. Esta salida es adecuada para un procesamiento o análisis posterior. |
+| Nombre de salida     | Tipo de dato         | Descripción                |
+| -------------------- | ------------------- | -------------------------- |
+| SALIDA_CLIP_VISION   | CLIP_VISION_OUTPUT  | Características visuales codificadas    |
+
+Este objeto de salida contiene:
+- `last_hidden_state`: El último estado oculto
+- `image_embeds`: Vector de incrustación de la imagen
+- `penultimate_hidden_states`: El penúltimo estado oculto
+- `mm_projected`: Resultado de proyección multimodal (si está disponible)
diff --git a/comfyui_embedded_docs/docs/ClipVisionEncode/fr.md b/comfyui_embedded_docs/docs/ClipVisionEncode/fr.md
@@ -1,14 +1,27 @@
-Le nœud CLIPVisionEncode est conçu pour encoder des images à l'aide d'un modèle de vision CLIP, transformant l'entrée visuelle en un format adapté à un traitement ou une analyse ultérieure. Ce nœud simplifie la complexité de l'encodage d'images, offrant une interface simplifiée pour convertir les images en représentations encodées.
+Le nœud `CLIP Vision Encode` dans ComfyUI est un nœud d'encodage d'image, utilisé pour convertir les images d'entrée en vecteurs de caractéristiques visuelles à l'aide du modèle CLIP Vision. Ce nœud est un pont important entre la compréhension de l'image et du texte, et il est largement utilisé dans divers flux de travail de génération et de traitement d'images par IA.
+
+**Fonctionnalité du nœud**
+
+- **Extraction de caractéristiques d'image** : Convertit les images d'entrée en vecteurs de caractéristiques de haute dimension
+- **Pont multimodal** : Fournit une base pour le traitement conjoint de l'image et du texte
+- **Génération conditionnelle** : Fournit des conditions visuelles pour la génération conditionnelle basée sur l'image
 
 ## Entrées
 
-| Paramètre            | Comfy dtype          | Description |
-|----------------------|-----------------------|-------------|
-| `clip_vision`        | `CLIP_VISION`        | Le modèle de vision CLIP utilisé pour encoder l'image. Il est crucial pour le processus d'encodage, car il détermine la méthode et la qualité de l'encodage. |
-| `image`              | `IMAGE`              | L'image à encoder. Cette entrée est essentielle pour générer la représentation encodée du contenu visuel. |
+| Nom du paramètre | Data Type   | Description                                                      |
+|------------------|------------|------------------------------------------------------------------|
+| `clip_vision`    | CLIP_VISION| Modèle CLIP vision, généralement chargé via le nœud CLIPVisionLoader |
+| `image`          | IMAGE      | L'image d'entrée à encoder                                       |
+| `crop`           | Dropdown   | Méthode de recadrage de l'image, options : center (recadrage centré), none (pas de recadrage) |
 
 ## Sorties
 
-| Paramètre             | Comfy dtype            | Description |
-|-----------------------|------------------------|-------------|
-| `clip_vision_output`  | `CLIP_VISION_OUTPUT`  | La représentation encodée de l'image d'entrée, produite par le modèle de vision CLIP. Cette sortie est adaptée à un traitement ou une analyse ultérieure. |
+| Nom de sortie         | Data Type           | Description                |
+|-----------------------|--------------------|----------------------------|
+| SORTIE_CLIP_VISION    | CLIP_VISION_OUTPUT | Caractéristiques visuelles encodées |
+
+Cet objet de sortie contient :
+- `last_hidden_state` : Le dernier état caché
+- `image_embeds` : Vecteur d'intégration de l'image
+- `penultimate_hidden_states` : L'avant-dernier état caché
+- `mm_projected` : Résultat de la projection multimodale (si disponible)
diff --git a/comfyui_embedded_docs/docs/ClipVisionEncode/ja.md b/comfyui_embedded_docs/docs/ClipVisionEncode/ja.md
@@ -1,14 +1,27 @@
-CLIPVisionEncodeノードは、CLIPビジョンモデルを使用して画像をエンコードし、視覚入力をさらなる処理や分析に適した形式に変換するために設計されています。このノードは画像エンコードの複雑さを抽象化し、画像をエンコードされた表現に変換するための簡潔なインターフェースを提供します。
+`CLIPビジョンエンコード`ノードは、ComfyUIにおける画像エンコードノードであり、CLIP Visionモデルを用いて入力画像を視覚特徴ベクトルに変換します。このノードは画像とテキスト理解をつなぐ重要な橋渡し役であり、さまざまなAI画像生成・処理ワークフローで広く利用されています。
+
+**ノードの機能**
+
+- **画像特徴抽出**：入力画像を高次元特徴ベクトルに変換します
+- **マルチモーダル連携**：画像とテキストの共同処理の基盤を提供します
+- **条件生成**：画像ベースの条件生成に視覚条件を提供します
 
 ## 入力
 
-| パラメータ            | Comfy dtype          | 説明 |
-|----------------------|-----------------------|-------------|
-| `clip_vision`        | `CLIP_VISION`        | 画像をエンコードするために使用されるCLIPビジョンモデルです。エンコードプロセスにおいて重要であり、エンコードの方法と品質を決定します。 |
-| `image`              | `IMAGE`              | エンコードされる画像です。この入力は、視覚コンテンツのエンコードされた表現を生成するために不可欠です。 |
+| パラメータ名      | Data Type    | 説明                                                         |
+|-------------------|--------------|--------------------------------------------------------------|
+| クリップビジョン   | CLIP_VISION  | CLIPビジョンモデル。通常はCLIPVisionLoaderノードで読み込みます |
+| 画像              | IMAGE        | エンコードする入力画像                                        |
+| クロップ          | Dropdown     | 画像のクロップ方法。center（中央クロップ）、none（クロップなし）|
 
 ## 出力
 
-| パラメータ             | Comfy dtype            | 説明 |
-|-----------------------|------------------------|-------------|
-| `clip_vision_output`  | `CLIP_VISION_OUTPUT`  | CLIPビジョンモデルによって生成された入力画像のエンコードされた表現です。この出力は、さらなる処理や分析に適しています。 |
+| 出力名              | Data Type           | 説明                         |
+|---------------------|--------------------|------------------------------|
+| CLIP_VISION_OUTPUT  | CLIP_VISION_OUTPUT | エンコードされた視覚特徴      |
+
+この出力オブジェクトには以下が含まれます：
+- `last_hidden_state`: 最終隠れ状態
+- `image_embeds`: 画像埋め込みベクトル
+- `penultimate_hidden_states`: 最後から2番目の隠れ状態
+- `mm_projected`: マルチモーダル投影結果（利用可能な場合）
diff --git a/comfyui_embedded_docs/docs/ClipVisionEncode/ko.md b/comfyui_embedded_docs/docs/ClipVisionEncode/ko.md
@@ -1,14 +1,27 @@
-CLIPVisionEncode 노드는 CLIP 비전 모델을 사용하여 이미지를 인코딩하도록 설계되었습니다. 이는 시각적 입력을 추가 처리나 분석에 적합한 형식으로 변환합니다. 이 노드는 이미지 인코딩의 복잡성을 추상화하여, 이미지를 인코딩된 표현으로 변환하기 위한 간소화된 인터페이스를 제공합니다.
+`CLIP_VISION 인코딩` 노드는 ComfyUI에서 이미지 인코딩 노드로, CLIP Vision 모델을 사용하여 입력 이미지를 시각적 특징 벡터로 변환합니다. 이 노드는 이미지와 텍스트 이해를 연결하는 중요한 다리 역할을 하며, 다양한 AI 이미지 생성 및 처리 워크플로우에서 널리 사용됩니다.
+
+**노드 기능**
+
+- **이미지 특징 추출**: 입력 이미지를 고차원 특징 벡터로 변환합니다
+- **멀티모달 브릿지**: 이미지와 텍스트의 공동 처리를 위한 기반을 제공합니다
+- **조건부 생성**: 이미지 기반 조건 생성에 시각적 조건을 제공합니다
 
 ## 입력
 
-| 매개변수            | Comfy dtype          | 설명 |
-|----------------------|-----------------------|-------------|
-| `clip_vision`        | `CLIP_VISION`        | 이미지를 인코딩하는 데 사용되는 CLIP 비전 모델입니다. 이는 인코딩 과정에서 방법과 품질을 결정하는 데 중요합니다. |
-| `image`              | `IMAGE`              | 인코딩될 이미지입니다. 이 입력은 시각적 콘텐츠의 인코딩된 표현을 생성하는 데 필수적입니다. |
+| 매개변수명      | Data Type    | 설명                                                         |
+|----------------|-------------|--------------------------------------------------------------|
+| clip_vision    | CLIP_VISION | CLIP 비전 모델, 일반적으로 CLIPVisionLoader 노드를 통해 불러옵니다 |
+| 이미지         | IMAGE       | 인코딩할 입력 이미지                                         |
+| 자르기 방법     | Dropdown    | 이미지 자르기 방법, 옵션: center(중앙 자르기), none(자르지 않음) |
 
 ## 출력
 
-| 매개변수             | Comfy dtype            | 설명 |
-|-----------------------|------------------------|-------------|
-| `clip_vision_output`  | `CLIP_VISION_OUTPUT`  | CLIP 비전 모델에 의해 생성된 입력 이미지의 인코딩된 표현입니다. 이 출력은 추가 처리나 분석에 적합합니다. |
+| 출력명             | Data Type           | 설명                         |
+|--------------------|--------------------|------------------------------|
+| CLIP_VISION 출력   | CLIP_VISION_OUTPUT | 인코딩된 시각적 특징          |
+
+이 출력 객체에는 다음이 포함됩니다:
+- `last_hidden_state`: 마지막 히든 상태
+- `image_embeds`: 이미지 임베딩 벡터
+- `penultimate_hidden_states`: 마지막에서 두 번째 히든 상태
+- `mm_projected`: 멀티모달 프로젝션 결과(가능한 경우)
diff --git a/comfyui_embedded_docs/docs/ClipVisionEncode/ru.md b/comfyui_embedded_docs/docs/ClipVisionEncode/ru.md
@@ -0,0 +1,27 @@
+Узел `Кодирование видения CLIP` в ComfyUI — это узел кодирования изображений, который используется для преобразования входных изображений в векторные визуальные признаки с помощью модели CLIP Vision. Этот узел является важным мостом между пониманием изображений и текста и широко используется в различных рабочих процессах генерации и обработки изображений с помощью ИИ.
+
+**Функциональность узла**
+
+- **Извлечение признаков изображения**: Преобразует входные изображения в векторы признаков высокой размерности
+- **Мультимодальный мост**: Обеспечивает основу для совместной обработки изображений и текста
+- **Условная генерация**: Предоставляет визуальные условия для генерации на основе изображений
+
+## Входы
+
+| Имя параметра  | Data Type    | Описание                                                      |
+| -------------- | -----------  | ------------------------------------------------------------- |
+| `clip_vision`  | CLIP_VISION  | Модель CLIP vision, обычно загружается через узел CLIPVisionLoader |
+| `изображение`  | IMAGE        | Входное изображение для кодирования                           |
+| `обрезка`      | Dropdown     | Метод обрезки изображения, варианты: center (центральная обрезка), none (без обрезки) |
+
+## Выходы
+
+| Имя выхода           | Data Type           | Описание                  |
+| -------------------- | ------------------ | ------------------------- |
+| CLIP_VISION_OUTPUT   | CLIP_VISION_OUTPUT | Закодированные визуальные признаки |
+
+Этот объект выхода содержит:
+- `last_hidden_state`: Последнее скрытое состояние
+- `image_embeds`: Вектор эмбеддинга изображения
+- `penultimate_hidden_states`: Предпоследнее скрытое состояние
+- `mm_projected`: Результат мультимодального проецирования (если доступно)
diff --git a/comfyui_embedded_docs/docs/ClipVisionEncode/zh.md b/comfyui_embedded_docs/docs/ClipVisionEncode/zh.md
@@ -1,14 +1,26 @@
-CLIP视觉编码节点旨在使用CLIP视觉模型对图像进行编码，将视觉输入转换为适合进一步处理或分析的格式。该节点抽象了图像编码的复杂性，提供了一个简化的接口，用于将图像转换为编码表示。
+`CLIP视觉编码` 节点是 ComfyUI 中的图像编码节点，用于将输入图像通过 CLIP Vision 模型转换为视觉特征向量。该节点是连接图像和文本理解的重要桥梁，广泛用于各种 AI 图像生成和处理工作流中。
 
-## 输入
+**节点功能**
 
-| 参数名称 | 数据类型 | 作用 |
-| --- | --- | --- |
-| `clip_vision` | `CLIP_VISION` | 用于编码图像的CLIP视觉模型。它对编码过程至关重要，因为它决定了编码的方法和质量。 |
-| `image` | `IMAGE` | 要编码的图像。此输入对于生成视觉内容的编码表示至关重要。 |
+- **图像特征提取**：将输入图像转换为高维特征向量
+- **多模态桥接**：为图像和文本的联合处理提供基础
+- **条件生成**：为基于图像的条件生成提供视觉条件
+## 输入参数
 
-## 输出
+| 参数名          | 类型         | 说明                                         |
+| -------------- | ------------ | -------------------------------------------- |
+| `clip视觉`      | CLIP_VISION  | CLIP视觉模型，通常通过 CLIPVisionLoader 节点加载 |
+| `图像`          | IMAGE        | 需要编码的输入图像                              |
+| `裁剪`          | 下拉选择      | 图像裁剪方式，可选值：center（居中裁剪）、none（不裁剪） |
 
-| 参数名称 | 数据类型 | 作用 |
-| --- | --- | --- |
-| `clip_vision_output` | `CLIP_VISION_OUTPUT` | 由CLIP视觉模型生成的输入图像的编码表示。此输出适合于进一步的处理或分析。 |
+## 输出参数
+
+| 参数名                   | 类型                 | 说明                         |
+| ----------------------- | ------------------- | ---------------------------- |
+| CLIP视觉输出             | CLIP_VISION_OUTPUT   |编码后的视觉特征                |
+
+这个输出对象包含:
+- `last_hidden_state`: 最后一层的隐藏状态  
+- `image_embeds`: 图像嵌入向量  
+- `penultimate_hidden_states`: 倒数第二层的隐藏状态  
+- `mm_projected`: 多模态投影结果（如果可用）