Skip to content

Commit d904b54

Browse files
committed
Update ClipTextEncoderFlux docs
1 parent af6e96e commit d904b54

File tree

7 files changed

+258
-81
lines changed

7 files changed

+258
-81
lines changed
Lines changed: 36 additions & 14 deletions
Original file line numberDiff line numberDiff line change
@@ -1,20 +1,42 @@
1-
Text Encoding: Uses the CLIP model to encode the text input in clip_l, capturing key features and semantic information from the text.
2-
Enhanced Text Understanding: Utilizes the T5XXL large language model to process the t5xxl input, potentially expanding or refining text descriptions to provide richer semantic information.
3-
Multimodal Fusion: Combines the processing results from CLIP and T5XXL to create a more comprehensive text representation.
4-
Generation Control: Adjusts the influence of text prompts on image generation through the guidance parameter, allowing users to find a balance between creative freedom and strict adherence to prompts.
5-
Conditional Data Generation: Outputs processed conditional data, which will be used in subsequent image generation processes to ensure that the generated images match the text descriptions.
1+
`CLIPTextEncodeFlux` is an advanced text encoding node in ComfyUI, specifically designed for the Flux architecture. It uses a dual-encoder mechanism (CLIP-L and T5XXL) to process both structured keywords and detailed natural language descriptions, providing the Flux model with more accurate and comprehensive text understanding for improved text-to-image generation quality.
2+
3+
This node is based on a dual-encoder collaboration mechanism:
4+
1. The `clip_l` input is processed by the CLIP-L encoder, extracting style, theme, and other keyword features—ideal for concise descriptions.
5+
2. The `t5xxl` input is processed by the T5XXL encoder, which excels at understanding complex and detailed natural language scene descriptions.
6+
3. The outputs from both encoders are fused, and combined with the `guidance` parameter to generate unified conditioning embeddings (`CONDITIONING`) for downstream Flux sampler nodes, controlling how closely the generated content matches the text description.
67

78
## Inputs
89

9-
| Parameter | Data Type | Description |
10-
|------------|-----------|-------------|
11-
| `clip` | CLIP | CLIP model object input, used for text encoding and processing, typically used with DualCLIPLoader |
12-
| `clip_l` | STRING | Multi-line text input, enter text similar to tag information for CLIP model encoding |
13-
| `t5xxl` | STRING | Multi-line text input, enter natural language prompt descriptions for T5XXL model encoding |
14-
| `guidance` | FLOAT | Floating-point value, used to guide the generation process; higher values increase image-prompt matching but may reduce creativity |
10+
| Parameter | Data Type | Input Method | Default | Range | Description |
11+
|-----------|----------|-------------|---------|-------|-------------|
12+
| `clip` | CLIP | Node input | None | - | Must be a CLIP model supporting the Flux architecture, including both CLIP-L and T5XXL encoders |
13+
| `clip_l` | STRING | Text box | None | Up to 77 tokens | Suitable for concise keyword descriptions, such as style or theme |
14+
| `t5xxl` | STRING | Text box | None | Nearly unlimited | Suitable for detailed natural language descriptions, expressing complex scenes and details |
15+
| `guidance`| FLOAT | Slider | 3.5 | 0.0 - 100.0 | Controls the influence of text conditions on the generation process; higher values mean stricter adherence to the text |
1516

1617
## Outputs
1718

18-
| Parameter | Data Type | Description |
19-
|----------------|-----------|-------------|
20-
| `CONDITIONING` | Condition | Contains conditional data (cond) for subsequent conditional generation tasks |
19+
| Output Name | Data Type | Description |
20+
|--------------|-------------|-------------|
21+
| `CONDITIONING` | CONDITIONING | Contains the fused embeddings from both encoders and the guidance parameter, used for conditional image generation |
22+
23+
## Usage Examples
24+
25+
### Prompt Examples
26+
27+
- **clip_l input** (keyword style):
28+
- Use structured, concise keyword combinations
29+
- Example: `masterpiece, best quality, portrait, oil painting, dramatic lighting`
30+
- Focus on style, quality, and main subject
31+
32+
- **t5xxl input** (natural language description):
33+
- Use complete, fluent scene descriptions
34+
- Example: `A highly detailed portrait in oil painting style, featuring dramatic chiaroscuro lighting that creates deep shadows and bright highlights, emphasizing the subject's features with renaissance-inspired composition.`
35+
- Focus on scene details, spatial relationships, and lighting effects
36+
37+
### Notes
38+
39+
1. Make sure to use a CLIP model compatible with the Flux architecture
40+
2. It is recommended to fill in both `clip_l` and `t5xxl` to leverage the dual-encoder advantage
41+
3. Note the 77-token limit for `clip_l`
42+
4. Adjust the `guidance` parameter based on the generated results
Lines changed: 36 additions & 14 deletions
Original file line numberDiff line numberDiff line change
@@ -1,20 +1,42 @@
1-
Codificación de Texto: Utiliza el modelo CLIP para codificar la entrada de texto en clip_l, capturando características clave e información semántica del texto.
2-
Comprensión Mejorada del Texto: Emplea el modelo de lenguaje grande T5XXL para procesar la entrada t5xxl, potencialmente expandiendo o refinando descripciones de texto para proporcionar información semántica más rica.
3-
Fusión Multimodal: Combina los resultados del procesamiento de CLIP y T5XXL para crear una representación textual más completa.
4-
Control de Generación: Ajusta la influencia de los mensajes de texto en la generación de imágenes a través del parámetro de guía, permitiendo a los usuarios encontrar un equilibrio entre la libertad creativa y la estricta adherencia a los mensajes.
5-
Generación de Datos Condicionales: Produce datos condicionales procesados, que se utilizarán en procesos de generación de imágenes posteriores para asegurar que las imágenes generadas coincidan con las descripciones textuales.
1+
`CodificarTextoCLIPFlux` es un nodo avanzado de codificación de texto en ComfyUI, diseñado específicamente para la arquitectura Flux. Utiliza un mecanismo de doble codificador (CLIP-L y T5XXL) para procesar tanto palabras clave estructuradas como descripciones detalladas en lenguaje natural, proporcionando al modelo Flux una comprensión textual más precisa y completa para mejorar la calidad de la generación de imágenes a partir de texto.
2+
3+
Este nodo se basa en la colaboración de dos codificadores:
4+
1. La entrada `clip_l` es procesada por el codificador CLIP-L, extrayendo características como estilo y tema, ideal para descripciones concisas.
5+
2. La entrada `t5xxl` es procesada por el codificador T5XXL, especializado en comprender descripciones complejas y detalladas en lenguaje natural.
6+
3. Los resultados de ambos codificadores se fusionan y, junto con el parámetro `orientación`, generan una incrustación condicional unificada (`ACONDICIONAMIENTO`) para los nodos de muestreo Flux, controlando el grado de coincidencia entre el contenido generado y la descripción textual.
67

78
## Entradas
89

9-
| Nombre del Parámetro | Tipo de Dato | Función |
10-
|----------------------|---------------|---------|
11-
| clip | CLIP | Entrada del objeto del modelo CLIP, utilizado para la codificación y procesamiento de texto, típicamente usado con DualCLIPLoader |
12-
| clip_l | CADENA | Entrada de texto en múltiples líneas, ingresa texto similar a la información de etiquetas para la codificación del modelo CLIP |
13-
| t5xxl | CADENA | Entrada de texto en múltiples líneas, ingresa descripciones de mensajes en lenguaje natural para la codificación del modelo T5XXL |
14-
| guidance | FLOAT | Valor de punto flotante, utilizado para guiar el proceso de generación; valores más altos aumentan la coincidencia entre imagen y mensaje, pero pueden reducir la creatividad |
10+
| Nombre del parámetro | Tipo de dato | Método de entrada | Valor por defecto | Rango | Función |
11+
|---------------------|--------------|-------------------|-------------------|-------|---------|
12+
| `clip` | CLIP | Entrada de nodo | Ninguno | - | Debe ser un modelo CLIP compatible con Flux, que incluya los codificadores CLIP-L y T5XXL |
13+
| `clip_l` | STRING | Caja de texto | Ninguno | Hasta 77 tokens | Adecuado para descripciones concisas de palabras clave, como estilo o tema |
14+
| `t5xxl` | STRING | Caja de texto | Ninguno | Prácticamente ilimitado | Adecuado para descripciones detalladas en lenguaje natural, expresando escenas y detalles complejos |
15+
| `orientación` | FLOAT | Deslizador | 3.5 | 0.0 - 100.0 | Controla la influencia de las condiciones textuales en el proceso de generación; valores más altos significan mayor adherencia al texto |
1516

1617
## Salidas
1718

18-
| Nombre del Parámetro | Tipo de Dato | Función |
19-
|----------------------|---------------|---------|
20-
| CONDITIONING | Condición | Contiene datos condicionales (cond) para tareas de generación condicional posteriores |
19+
| Nombre de salida | Tipo de dato | Función |
20+
|--------------------|-----------------|---------|
21+
| `ACONDICIONAMIENTO`| CONDITIONING | Contiene la incrustación fusionada de ambos codificadores y el parámetro de orientación, utilizada para la generación condicional de imágenes |
22+
23+
## Ejemplos de uso
24+
25+
### Ejemplos de mensajes
26+
27+
- **Entrada clip_l** (palabras clave):
28+
- Utiliza combinaciones estructuradas y concisas de palabras clave
29+
- Ejemplo: `masterpiece, best quality, portrait, oil painting, dramatic lighting`
30+
- Enfócate en el estilo, la calidad y el tema principal
31+
32+
- **Entrada t5xxl** (descripción en lenguaje natural):
33+
- Utiliza descripciones completas y fluidas de la escena
34+
- Ejemplo: `A highly detailed portrait in oil painting style, featuring dramatic chiaroscuro lighting that creates deep shadows and bright highlights, emphasizing the subject's features with renaissance-inspired composition.`
35+
- Enfócate en los detalles de la escena, relaciones espaciales y efectos de luz
36+
37+
### Notas
38+
39+
1. Asegúrate de usar un modelo CLIP compatible con la arquitectura Flux
40+
2. Se recomienda rellenar tanto `clip_l` como `t5xxl` para aprovechar la ventaja del doble codificador
41+
3. Ten en cuenta el límite de 77 tokens para `clip_l`
42+
4. Ajusta el parámetro `orientación` según los resultados generados
Lines changed: 36 additions & 14 deletions
Original file line numberDiff line numberDiff line change
@@ -1,20 +1,42 @@
1-
Encodage de Texte : Utilise le modèle CLIP pour encoder l'entrée texte dans `clip_l`, capturant les caractéristiques clés et les informations sémantiques du texte.
2-
Compréhension Améliorée du Texte : Utilise le modèle de langage large T5XXL pour traiter l'entrée `t5xxl`, potentiellement en élargissant ou en affinant les descriptions textuelles pour fournir des informations sémantiques plus riches.
3-
Fusion Multimodale : Combine les résultats de traitement de CLIP et T5XXL pour créer une représentation textuelle plus complète.
4-
Contrôle de la Génération : Ajuste l'influence des invites textuelles sur la génération d'images via le paramètre de guidage, permettant aux utilisateurs de trouver un équilibre entre la liberté créative et le respect strict des invites.
5-
Génération de Données Conditionnelles : Produit des données conditionnelles traitées, qui seront utilisées dans les processus de génération d'images ultérieurs pour s'assurer que les images générées correspondent aux descriptions textuelles.
1+
`CLIPTextEncodeFlux` est un nœud avancé d'encodage de texte dans ComfyUI, spécialement conçu pour l'architecture Flux. Il utilise un mécanisme à double encodeur (CLIP-L et T5XXL) pour traiter à la fois des mots-clés structurés et des descriptions détaillées en langage naturel, offrant au modèle Flux une compréhension textuelle plus précise et complète pour améliorer la qualité de la génération d'images à partir de texte.
2+
3+
Ce nœud repose sur la collaboration de deux encodeurs :
4+
1. L'entrée `clip_l` est traitée par l'encodeur CLIP-L, extrayant des caractéristiques telles que le style et le thème, idéale pour des descriptions concises.
5+
2. L'entrée `t5xxl` est traitée par l'encodeur T5XXL, spécialisé dans la compréhension de descriptions complexes et détaillées en langage naturel.
6+
3. Les résultats des deux encodeurs sont fusionnés et, combinés avec le paramètre `guidance`, génèrent un embedding conditionnel unifié (`CONDITIONNEMENT`) pour les nœuds de sampling Flux, contrôlant le degré de correspondance entre le contenu généré et la description textuelle.
67

78
## Entrées
89

9-
| Nom du Paramètre | Type de Donnée | Fonction |
10-
|------------------|----------------|----------|
11-
| clip | CLIP | Entrée d'objet modèle CLIP, utilisée pour l'encodage et le traitement du texte, généralement utilisée avec DualCLIPLoader |
12-
| clip_l | STRING | Entrée texte multi-lignes, entrez un texte similaire aux informations de balise pour l'encodage du modèle CLIP |
13-
| t5xxl | STRING | Entrée texte multi-lignes, entrez des descriptions d'invites en langage naturel pour l'encodage du modèle T5XXL |
14-
| guidance | FLOAT | Valeur flottante, utilisée pour guider le processus de génération ; des valeurs plus élevées augmentent la correspondance image-invite mais peuvent réduire la créativité |
10+
| Nom du paramètre | Type de donnée | Méthode d'entrée | Valeur par défaut | Plage | Fonction |
11+
|------------------|----------------|------------------|-------------------|-------|----------|
12+
| `clip` | CLIP | Entrée de nœud | Aucun | - | Doit être un modèle CLIP compatible Flux, incluant les encodeurs CLIP-L et T5XXL |
13+
| `clip_l` | STRING | Champ texte | Aucun | Jusqu'à 77 tokens | Adapté pour des descriptions concises de mots-clés, comme le style ou le thème |
14+
| `t5xxl` | STRING | Champ texte | Aucun | Pratiquement illimité | Adapté pour des descriptions détaillées en langage naturel, exprimant des scènes et des détails complexes |
15+
| `guidance` | FLOAT | Curseur | 3.5 | 0.0 - 100.0 | Contrôle l'influence des conditions textuelles sur le processus de génération ; des valeurs plus élevées signifient un respect plus strict du texte |
1516

1617
## Sorties
1718

18-
| Nom du Paramètre | Type de Donnée | Fonction |
19-
|------------------|----------------|----------|
20-
| CONDITIONING | Condition | Contient des données conditionnelles (cond) pour les tâches de génération conditionnelle ultérieures |
19+
| Nom de sortie | Type de donnée | Fonction |
20+
|--------------------|------------------|----------|
21+
| `CONDITIONNEMENT` | CONDITIONING | Contient l'embedding fusionné des deux encodeurs et le paramètre de guidance, utilisé pour la génération conditionnelle d'images |
22+
23+
## Exemples d'utilisation
24+
25+
### Exemples de prompts
26+
27+
- **Entrée clip_l** (mots-clés) :
28+
- Utilisez des combinaisons structurées et concises de mots-clés
29+
- Exemple : `masterpiece, best quality, portrait, oil painting, dramatic lighting`
30+
- Concentrez-vous sur le style, la qualité et le sujet principal
31+
32+
- **Entrée t5xxl** (description en langage naturel) :
33+
- Utilisez des descriptions complètes et fluides de la scène
34+
- Exemple : `A highly detailed portrait in oil painting style, featuring dramatic chiaroscuro lighting that creates deep shadows and bright highlights, emphasizing the subject's features with renaissance-inspired composition.`
35+
- Concentrez-vous sur les détails de la scène, les relations spatiales et les effets de lumière
36+
37+
### Remarques
38+
39+
1. Assurez-vous d'utiliser un modèle CLIP compatible avec l'architecture Flux
40+
2. Il est recommandé de remplir à la fois `clip_l` et `t5xxl` pour profiter de l'avantage du double encodeur
41+
3. Notez la limite de 77 tokens pour `clip_l`
42+
4. Ajustez le paramètre `guidance` selon les résultats générés

0 commit comments

Comments
 (0)