Comfy-Org
diff --git a/‎comfyui_embedded_docs/docs/ClipTextEncodeFlux/en.md‎
Lines changed: 36 additions & 14 deletions b/‎comfyui_embedded_docs/docs/ClipTextEncodeFlux/en.md‎
Lines changed: 36 additions & 14 deletions
diff --git a/‎comfyui_embedded_docs/docs/ClipTextEncodeFlux/es.md‎
Lines changed: 36 additions & 14 deletions b/‎comfyui_embedded_docs/docs/ClipTextEncodeFlux/es.md‎
Lines changed: 36 additions & 14 deletions
diff --git a/‎comfyui_embedded_docs/docs/ClipTextEncodeFlux/fr.md‎
Lines changed: 36 additions & 14 deletions b/‎comfyui_embedded_docs/docs/ClipTextEncodeFlux/fr.md‎
Lines changed: 36 additions & 14 deletions
@@ -1,20 +1,42 @@
-Text Encoding: Uses the CLIP model to encode the text input in clip_l, capturing key features and semantic information from the text.
-Enhanced Text Understanding: Utilizes the T5XXL large language model to process the t5xxl input, potentially expanding or refining text descriptions to provide richer semantic information.
-Multimodal Fusion: Combines the processing results from CLIP and T5XXL to create a more comprehensive text representation.
-Generation Control: Adjusts the influence of text prompts on image generation through the guidance parameter, allowing users to find a balance between creative freedom and strict adherence to prompts.
-Conditional Data Generation: Outputs processed conditional data, which will be used in subsequent image generation processes to ensure that the generated images match the text descriptions.
+`CLIPTextEncodeFlux` is an advanced text encoding node in ComfyUI, specifically designed for the Flux architecture. It uses a dual-encoder mechanism (CLIP-L and T5XXL) to process both structured keywords and detailed natural language descriptions, providing the Flux model with more accurate and comprehensive text understanding for improved text-to-image generation quality.
+
+This node is based on a dual-encoder collaboration mechanism:
+1. The `clip_l` input is processed by the CLIP-L encoder, extracting style, theme, and other keyword features—ideal for concise descriptions.
+2. The `t5xxl` input is processed by the T5XXL encoder, which excels at understanding complex and detailed natural language scene descriptions.
+3. The outputs from both encoders are fused, and combined with the `guidance` parameter to generate unified conditioning embeddings (`CONDITIONING`) for downstream Flux sampler nodes, controlling how closely the generated content matches the text description.
 
 ## Inputs
 
-| Parameter  | Data Type | Description |
-|------------|-----------|-------------|
-| `clip`     | CLIP      | CLIP model object input, used for text encoding and processing, typically used with DualCLIPLoader |
-| `clip_l`   | STRING    | Multi-line text input, enter text similar to tag information for CLIP model encoding |
-| `t5xxl`    | STRING    | Multi-line text input, enter natural language prompt descriptions for T5XXL model encoding |
-| `guidance` | FLOAT     | Floating-point value, used to guide the generation process; higher values increase image-prompt matching but may reduce creativity |
+| Parameter | Data Type | Input Method | Default | Range | Description |
+|-----------|----------|-------------|---------|-------|-------------|
+| `clip`    | CLIP     | Node input  | None    | -     | Must be a CLIP model supporting the Flux architecture, including both CLIP-L and T5XXL encoders |
+| `clip_l`  | STRING   | Text box    | None    | Up to 77 tokens | Suitable for concise keyword descriptions, such as style or theme |
+| `t5xxl`   | STRING   | Text box    | None    | Nearly unlimited | Suitable for detailed natural language descriptions, expressing complex scenes and details |
+| `guidance`| FLOAT    | Slider      | 3.5     | 0.0 - 100.0 | Controls the influence of text conditions on the generation process; higher values mean stricter adherence to the text |
 
 ## Outputs
 
-| Parameter      | Data Type | Description |
-|----------------|-----------|-------------|
-| `CONDITIONING` | Condition | Contains conditional data (cond) for subsequent conditional generation tasks |
+| Output Name   | Data Type    | Description |
+|--------------|-------------|-------------|
+| `CONDITIONING` | CONDITIONING | Contains the fused embeddings from both encoders and the guidance parameter, used for conditional image generation |
+
+## Usage Examples
+
+### Prompt Examples
+
+- **clip_l input** (keyword style):
+  - Use structured, concise keyword combinations
+  - Example: `masterpiece, best quality, portrait, oil painting, dramatic lighting`
+  - Focus on style, quality, and main subject
+
+- **t5xxl input** (natural language description):
+  - Use complete, fluent scene descriptions
+  - Example: `A highly detailed portrait in oil painting style, featuring dramatic chiaroscuro lighting that creates deep shadows and bright highlights, emphasizing the subject's features with renaissance-inspired composition.`
+  - Focus on scene details, spatial relationships, and lighting effects
+
+### Notes
+
+1. Make sure to use a CLIP model compatible with the Flux architecture
+2. It is recommended to fill in both `clip_l` and `t5xxl` to leverage the dual-encoder advantage
+3. Note the 77-token limit for `clip_l`
+4. Adjust the `guidance` parameter based on the generated results
@@ -1,20 +1,42 @@
-Codificación de Texto: Utiliza el modelo CLIP para codificar la entrada de texto en clip_l, capturando características clave e información semántica del texto.
-Comprensión Mejorada del Texto: Emplea el modelo de lenguaje grande T5XXL para procesar la entrada t5xxl, potencialmente expandiendo o refinando descripciones de texto para proporcionar información semántica más rica.
-Fusión Multimodal: Combina los resultados del procesamiento de CLIP y T5XXL para crear una representación textual más completa.
-Control de Generación: Ajusta la influencia de los mensajes de texto en la generación de imágenes a través del parámetro de guía, permitiendo a los usuarios encontrar un equilibrio entre la libertad creativa y la estricta adherencia a los mensajes.
-Generación de Datos Condicionales: Produce datos condicionales procesados, que se utilizarán en procesos de generación de imágenes posteriores para asegurar que las imágenes generadas coincidan con las descripciones textuales.
+`CodificarTextoCLIPFlux` es un nodo avanzado de codificación de texto en ComfyUI, diseñado específicamente para la arquitectura Flux. Utiliza un mecanismo de doble codificador (CLIP-L y T5XXL) para procesar tanto palabras clave estructuradas como descripciones detalladas en lenguaje natural, proporcionando al modelo Flux una comprensión textual más precisa y completa para mejorar la calidad de la generación de imágenes a partir de texto.
+
+Este nodo se basa en la colaboración de dos codificadores:
+1. La entrada `clip_l` es procesada por el codificador CLIP-L, extrayendo características como estilo y tema, ideal para descripciones concisas.
+2. La entrada `t5xxl` es procesada por el codificador T5XXL, especializado en comprender descripciones complejas y detalladas en lenguaje natural.
+3. Los resultados de ambos codificadores se fusionan y, junto con el parámetro `orientación`, generan una incrustación condicional unificada (`ACONDICIONAMIENTO`) para los nodos de muestreo Flux, controlando el grado de coincidencia entre el contenido generado y la descripción textual.
 
 ## Entradas
 
-| Nombre del Parámetro | Tipo de Dato | Función |
-|----------------------|---------------|---------|
-| clip                 | CLIP          | Entrada del objeto del modelo CLIP, utilizado para la codificación y procesamiento de texto, típicamente usado con DualCLIPLoader |
-| clip_l               | CADENA        | Entrada de texto en múltiples líneas, ingresa texto similar a la información de etiquetas para la codificación del modelo CLIP |
-| t5xxl                | CADENA        | Entrada de texto en múltiples líneas, ingresa descripciones de mensajes en lenguaje natural para la codificación del modelo T5XXL |
-| guidance             | FLOAT         | Valor de punto flotante, utilizado para guiar el proceso de generación; valores más altos aumentan la coincidencia entre imagen y mensaje, pero pueden reducir la creatividad |
+| Nombre del parámetro | Tipo de dato | Método de entrada | Valor por defecto | Rango | Función |
+|---------------------|--------------|-------------------|-------------------|-------|---------|
+| `clip`              | CLIP         | Entrada de nodo   | Ninguno           | -     | Debe ser un modelo CLIP compatible con Flux, que incluya los codificadores CLIP-L y T5XXL |
+| `clip_l`            | STRING       | Caja de texto     | Ninguno           | Hasta 77 tokens | Adecuado para descripciones concisas de palabras clave, como estilo o tema |
+| `t5xxl`             | STRING       | Caja de texto     | Ninguno           | Prácticamente ilimitado | Adecuado para descripciones detalladas en lenguaje natural, expresando escenas y detalles complejos |
+| `orientación`       | FLOAT        | Deslizador        | 3.5               | 0.0 - 100.0 | Controla la influencia de las condiciones textuales en el proceso de generación; valores más altos significan mayor adherencia al texto |
 
 ## Salidas
 
-| Nombre del Parámetro | Tipo de Dato | Función |
-|----------------------|---------------|---------|
-| CONDITIONING         | Condición     | Contiene datos condicionales (cond) para tareas de generación condicional posteriores |
+| Nombre de salida    | Tipo de dato    | Función |
+|--------------------|-----------------|---------|
+| `ACONDICIONAMIENTO`| CONDITIONING    | Contiene la incrustación fusionada de ambos codificadores y el parámetro de orientación, utilizada para la generación condicional de imágenes |
+
+## Ejemplos de uso
+
+### Ejemplos de mensajes
+
+- **Entrada clip_l** (palabras clave):
+  - Utiliza combinaciones estructuradas y concisas de palabras clave
+  - Ejemplo: `masterpiece, best quality, portrait, oil painting, dramatic lighting`
+  - Enfócate en el estilo, la calidad y el tema principal
+
+- **Entrada t5xxl** (descripción en lenguaje natural):
+  - Utiliza descripciones completas y fluidas de la escena
+  - Ejemplo: `A highly detailed portrait in oil painting style, featuring dramatic chiaroscuro lighting that creates deep shadows and bright highlights, emphasizing the subject's features with renaissance-inspired composition.`
+  - Enfócate en los detalles de la escena, relaciones espaciales y efectos de luz
+
+### Notas
+
+1. Asegúrate de usar un modelo CLIP compatible con la arquitectura Flux
+2. Se recomienda rellenar tanto `clip_l` como `t5xxl` para aprovechar la ventaja del doble codificador
+3. Ten en cuenta el límite de 77 tokens para `clip_l`
+4. Ajusta el parámetro `orientación` según los resultados generados
@@ -1,20 +1,42 @@
-Encodage de Texte : Utilise le modèle CLIP pour encoder l'entrée texte dans `clip_l`, capturant les caractéristiques clés et les informations sémantiques du texte.
-Compréhension Améliorée du Texte : Utilise le modèle de langage large T5XXL pour traiter l'entrée `t5xxl`, potentiellement en élargissant ou en affinant les descriptions textuelles pour fournir des informations sémantiques plus riches.
-Fusion Multimodale : Combine les résultats de traitement de CLIP et T5XXL pour créer une représentation textuelle plus complète.
-Contrôle de la Génération : Ajuste l'influence des invites textuelles sur la génération d'images via le paramètre de guidage, permettant aux utilisateurs de trouver un équilibre entre la liberté créative et le respect strict des invites.
-Génération de Données Conditionnelles : Produit des données conditionnelles traitées, qui seront utilisées dans les processus de génération d'images ultérieurs pour s'assurer que les images générées correspondent aux descriptions textuelles.
+`CLIPTextEncodeFlux` est un nœud avancé d'encodage de texte dans ComfyUI, spécialement conçu pour l'architecture Flux. Il utilise un mécanisme à double encodeur (CLIP-L et T5XXL) pour traiter à la fois des mots-clés structurés et des descriptions détaillées en langage naturel, offrant au modèle Flux une compréhension textuelle plus précise et complète pour améliorer la qualité de la génération d'images à partir de texte.
+
+Ce nœud repose sur la collaboration de deux encodeurs :
+1. L'entrée `clip_l` est traitée par l'encodeur CLIP-L, extrayant des caractéristiques telles que le style et le thème, idéale pour des descriptions concises.
+2. L'entrée `t5xxl` est traitée par l'encodeur T5XXL, spécialisé dans la compréhension de descriptions complexes et détaillées en langage naturel.
+3. Les résultats des deux encodeurs sont fusionnés et, combinés avec le paramètre `guidance`, génèrent un embedding conditionnel unifié (`CONDITIONNEMENT`) pour les nœuds de sampling Flux, contrôlant le degré de correspondance entre le contenu généré et la description textuelle.
 
 ## Entrées
 
-| Nom du Paramètre | Type de Donnée | Fonction |
-|------------------|----------------|----------|
-| clip             | CLIP           | Entrée d'objet modèle CLIP, utilisée pour l'encodage et le traitement du texte, généralement utilisée avec DualCLIPLoader |
-| clip_l           | STRING         | Entrée texte multi-lignes, entrez un texte similaire aux informations de balise pour l'encodage du modèle CLIP |
-| t5xxl            | STRING         | Entrée texte multi-lignes, entrez des descriptions d'invites en langage naturel pour l'encodage du modèle T5XXL |
-| guidance         | FLOAT          | Valeur flottante, utilisée pour guider le processus de génération ; des valeurs plus élevées augmentent la correspondance image-invite mais peuvent réduire la créativité |
+| Nom du paramètre | Type de donnée | Méthode d'entrée | Valeur par défaut | Plage | Fonction |
+|------------------|----------------|------------------|-------------------|-------|----------|
+| `clip`           | CLIP           | Entrée de nœud   | Aucun             | -     | Doit être un modèle CLIP compatible Flux, incluant les encodeurs CLIP-L et T5XXL |
+| `clip_l`         | STRING         | Champ texte      | Aucun             | Jusqu'à 77 tokens | Adapté pour des descriptions concises de mots-clés, comme le style ou le thème |
+| `t5xxl`          | STRING         | Champ texte      | Aucun             | Pratiquement illimité | Adapté pour des descriptions détaillées en langage naturel, exprimant des scènes et des détails complexes |
+| `guidance`       | FLOAT          | Curseur          | 3.5               | 0.0 - 100.0 | Contrôle l'influence des conditions textuelles sur le processus de génération ; des valeurs plus élevées signifient un respect plus strict du texte |
 
 ## Sorties
 
-| Nom du Paramètre | Type de Donnée | Fonction |
-|------------------|----------------|----------|
-| CONDITIONING     | Condition      | Contient des données conditionnelles (cond) pour les tâches de génération conditionnelle ultérieures |
+| Nom de sortie      | Type de donnée   | Fonction |
+|--------------------|------------------|----------|
+| `CONDITIONNEMENT`  | CONDITIONING     | Contient l'embedding fusionné des deux encodeurs et le paramètre de guidance, utilisé pour la génération conditionnelle d'images |
+
+## Exemples d'utilisation
+
+### Exemples de prompts
+
+- **Entrée clip_l** (mots-clés) :
+  - Utilisez des combinaisons structurées et concises de mots-clés
+  - Exemple : `masterpiece, best quality, portrait, oil painting, dramatic lighting`
+  - Concentrez-vous sur le style, la qualité et le sujet principal
+
+- **Entrée t5xxl** (description en langage naturel) :
+  - Utilisez des descriptions complètes et fluides de la scène
+  - Exemple : `A highly detailed portrait in oil painting style, featuring dramatic chiaroscuro lighting that creates deep shadows and bright highlights, emphasizing the subject's features with renaissance-inspired composition.`
+  - Concentrez-vous sur les détails de la scène, les relations spatiales et les effets de lumière
+
+### Remarques
+
+1. Assurez-vous d'utiliser un modèle CLIP compatible avec l'architecture Flux
+2. Il est recommandé de remplir à la fois `clip_l` et `t5xxl` pour profiter de l'avantage du double encodeur
+3. Notez la limite de 77 tokens pour `clip_l`
+4. Ajustez le paramètre `guidance` selon les résultats générés