|
1 | | -El nodo CLIPVisionEncode está diseñado para codificar imágenes utilizando un modelo de visión CLIP, transformando la entrada visual en un formato adecuado para un procesamiento o análisis posterior. Este nodo abstrae la complejidad de la codificación de imágenes, ofreciendo una interfaz simplificada para convertir imágenes en representaciones codificadas. |
| 1 | +El nodo `CLIP Vision Encode` es un nodo de codificación de imágenes en ComfyUI, utilizado para convertir imágenes de entrada en vectores de características visuales mediante el modelo CLIP Vision. Este nodo es un puente importante que conecta la comprensión de imágenes y textos, y se utiliza ampliamente en varios flujos de trabajo de generación y procesamiento de imágenes con IA. |
| 2 | + |
| 3 | +**Funcionalidad del nodo** |
| 4 | + |
| 5 | +- **Extracción de características de imagen**: Convierte imágenes de entrada en vectores de características de alta dimensión |
| 6 | +- **Puente multimodal**: Proporciona una base para el procesamiento conjunto de imágenes y textos |
| 7 | +- **Generación condicional**: Proporciona condiciones visuales para la generación condicional basada en imágenes |
2 | 8 |
|
3 | 9 | ## Entradas |
4 | 10 |
|
5 | | -| Parámetro | Tipo Comfy | Descripción | |
6 | | -|----------------------|---------------------|-------------| |
7 | | -| `clip_vision` | `CLIP_VISION` | El modelo de visión CLIP utilizado para codificar la imagen. Es crucial para el proceso de codificación, ya que determina el método y la calidad de la codificación. | |
8 | | -| `image` | `IMAGE` | La imagen que se va a codificar. Esta entrada es esencial para generar la representación codificada del contenido visual. | |
| 11 | +| Nombre del parámetro | Tipo de dato | Descripción | |
| 12 | +| -------------------- | ------------- | --------------------------------------------------------------- | |
| 13 | +| `clip_vision` | CLIP_VISION | Modelo CLIP vision, normalmente cargado mediante el nodo CLIPVisionLoader | |
| 14 | +| `image` | IMAGE | La imagen de entrada a codificar | |
| 15 | +| `crop` | Dropdown | Método de recorte de imagen, opciones: center (recorte centrado), none (sin recorte) | |
9 | 16 |
|
10 | 17 | ## Salidas |
11 | 18 |
|
12 | | -| Parámetro | Tipo Comfy | Descripción | |
13 | | -|-----------------------|-----------------------|-------------| |
14 | | -| `clip_vision_output` | `CLIP_VISION_OUTPUT` | La representación codificada de la imagen de entrada, producida por el modelo de visión CLIP. Esta salida es adecuada para un procesamiento o análisis posterior. | |
| 19 | +| Nombre de salida | Tipo de dato | Descripción | |
| 20 | +| -------------------- | ------------------- | -------------------------- | |
| 21 | +| SALIDA_CLIP_VISION | CLIP_VISION_OUTPUT | Características visuales codificadas | |
| 22 | + |
| 23 | +Este objeto de salida contiene: |
| 24 | +- `last_hidden_state`: El último estado oculto |
| 25 | +- `image_embeds`: Vector de incrustación de la imagen |
| 26 | +- `penultimate_hidden_states`: El penúltimo estado oculto |
| 27 | +- `mm_projected`: Resultado de proyección multimodal (si está disponible) |
0 commit comments