Skip to content

Commit 4c82de2

Browse files
authored
Merge pull request #33 from Comfy-Org/ClipTextEncodeHunyuanDit
Update ClipTextEncodeHunyuanDit docs
2 parents 87be67b + 5c3c45c commit 4c82de2

File tree

14 files changed

+183
-623
lines changed

14 files changed

+183
-623
lines changed
Lines changed: 8 additions & 88 deletions
Original file line numberDiff line numberDiff line change
@@ -1,96 +1,16 @@
1-
## Overview of CLIP Text Encode Hunyuan DiT ComfyUI Node
2-
3-
The main functions of the `CLIPTextEncodeHunyuanDiT` node are:
4-
5-
- **Tokenization**: Converting input text into token sequences that can be processed by the model.
6-
- **Encoding**: Using the CLIP model to encode token sequences into conditional encodings.
7-
8-
This node can be viewed as a "language translator" that converts user input text (whether English or other languages) into "machine language" that AI models can understand, enabling the model to generate corresponding content based on these conditions.
9-
10-
## Class Name
11-
12-
- **Class Name**: `CLIPTextEncodeHunyuanDiT`
13-
- **Category**: `advanced/conditioning`
14-
- **Output Node**: `False`
1+
The `CLIPTextEncodeHunyuanDiT` node's main function is to convert input text into a form that the model can understand. It is an advanced conditioning node specifically designed for the dual text encoder architecture of the HunyuanDiT model.
2+
Its primary role is like a translator, converting our text descriptions into "machine language" that the AI model can understand. The `bert` and `mt5xl` inputs prefer different types of prompt inputs.
153

164
## Inputs
175

186
| Parameter | Data Type | Description |
19-
| --------- | ----------| ----------- |
20-
| `clip` | CLIP | A CLIP model instance for text tokenization and encoding, core to generating conditions. |
21-
| `bert` | STRING | Text input for encoding, supports multiline and dynamic prompts. |
22-
| `mt5xl` | STRING | Another text input for encoding, supports multiline and dynamic prompts (multilingual). |
23-
24-
- **`bert` parameter**: Suitable for English text input. It's recommended to input concise text with context to help the node generate more accurate and meaningful token representations.
25-
- **`mt5xl` parameter**: Suitable for multilingual text input. You can input text in any language to help the model understand multilingual tasks.
7+
|-----------|-----------|-------------|
8+
| `clip` | CLIP | A CLIP model instance used for text tokenization and encoding, which is core to generating conditions. |
9+
| `bert` | STRING | Text input for encoding, prefers phrases and keywords, supports multiline and dynamic prompts. |
10+
| `mt5xl` | STRING | Another text input for encoding, supports multiline and dynamic prompts (multilingual), can use complete sentences and complex descriptions. |
2611

2712
## Outputs
2813

2914
| Parameter | Data Type | Description |
30-
| --------- | -------------- | ----------- |
31-
| `CONDITIONING` | CONDITIONING | Encoded conditional output for further processing in generation tasks. |
32-
33-
## Methods
34-
35-
- **Encoding Method**: `encode`
36-
37-
This method accepts `clip`, `bert`, and `mt5xl` as parameters. First, it tokenizes `bert`, then tokenizes `mt5xl`, and stores the results in a `tokens` dictionary. Finally, it uses the `clip.encode_from_tokens_scheduled` method to encode the tokenized tokens into conditions.
38-
39-
## Extended Content for CLIP Text Encode Hunyuan DiT Node
40-
41-
### BERT (Bidirectional Encoder Representations from Transformers)
42-
43-
BERT is a bidirectional language representation model based on the Transformer architecture.
44-
45-
It learns rich contextual information through pre-training on large amounts of text data, then fine-tunes on downstream tasks to achieve high performance.
46-
47-
**Key Features:**
48-
49-
- **Bidirectionality**: BERT considers both left and right context information simultaneously, enabling better understanding of word meanings.
50-
51-
- **Pre-training and Fine-tuning**: Through pre-training tasks (like Masked Language Model and Next Sentence Prediction), BERT can be quickly fine-tuned for various downstream tasks.
52-
53-
**Application Scenarios:**
54-
55-
- Text Classification
56-
57-
- Named Entity Recognition
58-
59-
- Question Answering Systems
60-
61-
### mT5-XL (Multilingual Text-to-Text Transfer Transformer)
62-
63-
mT5-XL is the multilingual version of the T5 model, using an encoder-decoder architecture that supports processing multiple languages.
64-
65-
It unifies all NLP tasks as text-to-text transformations, capable of handling various tasks including translation, summarization, and question answering.
66-
67-
**Key Features:**
68-
69-
- **Multilingual Support**: mT5-XL supports processing of up to 101 languages.
70-
71-
- **Unified Task Representation**: Converting all tasks into text-to-text format, simplifying the task processing pipeline.
72-
73-
**Application Scenarios:**
74-
75-
- Machine Translation
76-
77-
- Text Summarization
78-
79-
- Question Answering Systems
80-
81-
### BERT and mT5-XL Research Papers
82-
83-
1. [BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding](https://arxiv.org/pdf/1810.04805)
84-
- **Description**: This foundational paper introduces BERT, a transformer-based model that achieves state-of-the-art results on a wide array of NLP tasks.
85-
86-
2. [mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer](https://aclanthology.org/2021.naacl-main.41.pdf)
87-
- **Description**: This paper presents mT5, a multilingual variant of T5, trained on a new Common Crawl-based dataset covering 101 languages.
88-
89-
3. [mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences](https://arxiv.org/pdf/2112.08760)
90-
- **Description**: This work develops mLongT5, a multilingual model designed to handle longer input sequences efficiently.
91-
92-
4. [Bridging Linguistic Barriers: Inside Google's mT5 Multilingual Technology](https://medium.com/@rukaiya.rk24/bridging-linguistic-barriers-inside-googles-mt5-multilingual-technology-4a85e6ca056f)
93-
- **Description**: An article discussing the capabilities and applications of Google's mT5 model in multilingual NLP tasks.
94-
95-
5. [BERT-related Papers](https://github.com/tomohideshibata/BERT-related-papers)
96-
- **Description**: A curated list of research papers related to BERT, including surveys, downstream tasks, and modifications.
15+
|-----------|-----------|-------------|
16+
| `CONDITIONING` | CONDITIONING | The encoded conditional output used for further processing in generation tasks. |
Lines changed: 12 additions & 85 deletions
Original file line numberDiff line numberDiff line change
@@ -1,89 +1,16 @@
1+
Le nœud `CLIPTextEncodeHunyuanDiT` a pour fonction principale de convertir le texte d'entrée dans une forme compréhensible par le modèle. C'est un nœud de conditionnement avancé spécialement conçu pour l'architecture à double encodeur de texte du modèle HunyuanDiT.
2+
Son rôle principal est celui d'un traducteur, convertissant nos descriptions textuelles en "langage machine" que le modèle d'IA peut comprendre. Les entrées `bert` et `mt5xl` préfèrent différents types de prompts.
13

2-
Las funciones principales del nodo `CLIPTextEncodeHunyuanDiT` son:
4+
## Entrées
35

4-
- **Tokenización**: Convierte el texto de entrada en secuencias de tokens que pueden ser procesadas por el modelo.
5-
- **Codificación**: Utiliza el modelo CLIP para codificar secuencias de tokens en codificaciones condicionales.
6+
| Paramètre | Data Type | Description |
7+
|-----------|-----------|-------------|
8+
| `clip` | CLIP | Une instance du modèle CLIP utilisée pour la tokenisation et l'encodage du texte, essentielle pour générer les conditions. |
9+
| `bert` | STRING | Entrée de texte pour l'encodage, préfère les phrases et mots-clés, prend en charge les prompts multilignes et dynamiques. |
10+
| `mt5xl` | STRING | Autre entrée de texte pour l'encodage, prend en charge les prompts multilignes et dynamiques (multilingue), peut utiliser des phrases complètes et des descriptions complexes. |
611

7-
Este nodo puede verse como un "traductor de lenguaje" que convierte el texto de entrada del usuario (ya sea en inglés u otros idiomas) en "lenguaje máquina" que los modelos de IA pueden entender, permitiendo que el modelo genere contenido correspondiente basado en estas condiciones.
12+
## Sorties
813

9-
## Entradas
10-
11-
| Parámetro | Tipo de Datos Comfy | Descripción |
12-
| --------- | ------------------ | ----------- |
13-
| `clip` | `CLIP` | Una instancia del modelo CLIP para tokenización y codificación de texto, fundamental para generar condiciones. |
14-
| `bert` | `STRING` | Entrada de texto para codificación, admite prompts multilínea y dinámicos. |
15-
| `mt5xl` | `STRING` | Otra entrada de texto para codificación, admite prompts multilínea y dinámicos (multilingüe). |
16-
17-
- **Parámetro `bert`**: Adecuado para entrada de texto en inglés. Se recomienda ingresar texto conciso con contexto para ayudar al nodo a generar representaciones de tokens más precisas y significativas.
18-
- **Parámetro `mt5xl`**: Adecuado para entrada de texto multilingüe. Puede ingresar texto en cualquier idioma para ayudar al modelo a comprender tareas multilingües.
19-
20-
## Salidas
21-
22-
| Parámetro | Tipo de Datos Comfy | Descripción |
23-
| --------- | ------------------ | ----------- |
24-
| `CONDITIONING` | CONDITIONING | Salida condicional codificada para procesamiento posterior en tareas de generación. |
25-
26-
## Métodos
27-
28-
- **Método de Codificación**: `encode`
29-
30-
Este método acepta `clip`, `bert` y `mt5xl` como parámetros. Primero, tokeniza `bert`, luego tokeniza `mt5xl`, y almacena los resultados en un diccionario `tokens`. Finalmente, utiliza el método `clip.encode_from_tokens_scheduled` para codificar los tokens en condiciones.
31-
32-
## Contenido Extendido para el Nodo CLIP Text Encode Hunyuan DiT
33-
34-
### BERT (Bidirectional Encoder Representations from Transformers)
35-
36-
BERT es un modelo de representación de lenguaje bidireccional basado en la arquitectura Transformer.
37-
38-
Aprende información contextual rica a través del pre-entrenamiento en grandes cantidades de datos de texto, luego se ajusta para tareas específicas para lograr un alto rendimiento.
39-
40-
**Características Principales:**
41-
42-
- **Bidireccionalidad**: BERT considera la información contextual tanto izquierda como derecha simultáneamente, permitiendo una mejor comprensión del significado de las palabras.
43-
44-
- **Pre-entrenamiento y Ajuste Fino**: A través de tareas de pre-entrenamiento (como Masked Language Model y Next Sentence Prediction), BERT puede ajustarse rápidamente para varias tareas específicas.
45-
46-
**Escenarios de Aplicación:**
47-
48-
- Clasificación de Texto
49-
50-
- Reconocimiento de Entidades Nombradas
51-
52-
- Sistemas de Respuesta a Preguntas
53-
54-
### mT5-XL (Multilingual Text-to-Text Transfer Transformer)
55-
56-
mT5-XL es la versión multilingüe del modelo T5, utilizando una arquitectura codificador-decodificador que admite el procesamiento de múltiples idiomas.
57-
58-
Unifica todas las tareas de NLP como transformaciones texto-a-texto, capaz de manejar varias tareas incluyendo traducción, resumen y respuesta a preguntas.
59-
60-
**Características Principales:**
61-
62-
- **Soporte Multilingüe**: mT5-XL admite el procesamiento de hasta 101 idiomas.
63-
64-
- **Representación Unificada de Tareas**: Convierte todas las tareas en formato texto-a-texto, simplificando el proceso de procesamiento.
65-
66-
**Escenarios de Aplicación:**
67-
68-
- Traducción Automática
69-
70-
- Resumen de Texto
71-
72-
- Sistemas de Respuesta a Preguntas
73-
74-
### Artículos de Investigación sobre BERT y mT5-XL
75-
76-
1. [BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding](https://arxiv.org/pdf/1810.04805)
77-
- **Descripción**: Este artículo fundamental introduce BERT, un modelo basado en transformers que logra resultados estado del arte en una amplia gama de tareas NLP.
78-
79-
2. [mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer](https://aclanthology.org/2021.naacl-main.41.pdf)
80-
- **Descripción**: Este artículo presenta mT5, una variante multilingüe de T5, entrenada en un nuevo conjunto de datos basado en Common Crawl que cubre 101 idiomas.
81-
82-
3. [mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences](https://arxiv.org/pdf/2112.08760)
83-
- **Descripción**: Este trabajo desarrolla mLongT5, un modelo multilingüe diseñado para manejar secuencias de entrada más largas de manera eficiente.
84-
85-
4. [Bridging Linguistic Barriers: Inside Google's mT5 Multilingual Technology](https://medium.com/@rukaiya.rk24/bridging-linguistic-barriers-inside-googles-mt5-multilingual-technology-4a85e6ca056f)
86-
- **Descripción**: Un artículo que discute las capacidades y aplicaciones del modelo mT5 de Google en tareas NLP multilingües.
87-
88-
5. [BERT-related Papers](https://github.com/tomohideshibata/BERT-related-papers)
89-
- **Descripción**: Una lista curada de artículos de investigación relacionados con BERT, incluyendo estudios, tareas específicas y modificaciones.
14+
| Paramètre | Data Type | Description |
15+
|-----------|-----------|-------------|
16+
| `ACONDICIONAMIENTO` | CONDITIONING | La sortie conditionnelle encodée utilisée pour le traitement ultérieur dans les tâches de génération. |
Lines changed: 10 additions & 83 deletions
Original file line numberDiff line numberDiff line change
@@ -1,89 +1,16 @@
1-
2-
Les principales fonctions du nœud `CLIPTextEncodeHunyuanDiT` sont :
3-
4-
- **Tokenization** : Conversion du texte d'entrée en séquences de tokens pouvant être traitées par le modèle.
5-
- **Encodage** : Utilisation du modèle CLIP pour encoder les séquences de tokens en encodages conditionnels.
6-
7-
Ce nœud peut être considéré comme un "traducteur de langage" qui convertit le texte d'entrée de l'utilisateur (en anglais ou dans d'autres langues) en "langage machine" que les modèles d'IA peuvent comprendre, permettant au modèle de générer du contenu correspondant basé sur ces conditions.
1+
Le nœud `CLIPTextEncodeHunyuanDiT` a pour fonction principale de convertir le texte d'entrée dans une forme compréhensible par le modèle. C'est un nœud de conditionnement avancé spécialement conçu pour l'architecture à double encodeur de texte du modèle HunyuanDiT.
2+
Son rôle principal est celui d'un traducteur, convertissant nos descriptions textuelles en "langage machine" que le modèle d'IA peut comprendre. Les entrées `bert` et `mt5xl` préfèrent différents types de prompts.
83

94
## Entrées
105

11-
| Paramètre | Type de Données Comfy | Description |
12-
| --------- | -------------------- | ----------- |
13-
| `clip` | `CLIP` | Une instance du modèle CLIP pour la tokenization et l'encodage de texte, essentielle pour générer des conditions. |
14-
| `bert` | `STRING` | Entrée de texte pour l'encodage, prend en charge les prompts multiligne et dynamiques. |
15-
| `mt5xl` | `STRING` | Autre entrée de texte pour l'encodage, prend en charge les prompts multiligne et dynamiques (multilingue). |
16-
17-
- **Paramètre `bert`** : Adapté à l'entrée de texte en anglais. Il est recommandé d'entrer un texte concis avec contexte pour aider le nœud à générer des représentations de tokens plus précises et significatives.
18-
- **Paramètre `mt5xl`** : Adapté à l'entrée de texte multilingue. Vous pouvez entrer du texte dans n'importe quelle langue pour aider le modèle à comprendre les tâches multilingues.
6+
| Paramètre | Data Type | Description |
7+
|-----------|-----------|-------------|
8+
| `clip` | CLIP | Une instance du modèle CLIP utilisée pour la tokenisation et l'encodage du texte, essentielle pour générer les conditions. |
9+
| `bert` | STRING | Entrée de texte pour l'encodage, préfère les phrases et mots-clés, prend en charge les prompts multilignes et dynamiques. |
10+
| `mt5xl` | STRING | Autre entrée de texte pour l'encodage, prend en charge les prompts multilignes et dynamiques (multilingue), peut utiliser des phrases complètes et des descriptions complexes. |
1911

2012
## Sorties
2113

22-
| Paramètre | Type de Données Comfy | Description |
23-
| --------- | -------------------- | ----------- |
24-
| `CONDITIONING` | CONDITIONING | Sortie conditionnelle encodée pour un traitement ultérieur dans les tâches de génération. |
25-
26-
## Méthodes
27-
28-
- **Méthode d'Encodage** : `encode`
29-
30-
Cette méthode accepte `clip`, `bert` et `mt5xl` comme paramètres. D'abord, elle tokenize `bert`, puis tokenize `mt5xl`, et stocke les résultats dans un dictionnaire `tokens`. Enfin, elle utilise la méthode `clip.encode_from_tokens_scheduled` pour encoder les tokens en conditions.
31-
32-
## Contenu Étendu pour le Nœud CLIP Text Encode Hunyuan DiT
33-
34-
### BERT (Bidirectional Encoder Representations from Transformers)
35-
36-
BERT est un modèle de représentation du langage bidirectionnel basé sur l'architecture Transformer.
37-
38-
Il apprend des informations contextuelles riches grâce au pré-entraînement sur de grandes quantités de données textuelles, puis s'affine sur des tâches en aval pour atteindre des performances élevées.
39-
40-
**Caractéristiques Principales :**
41-
42-
- **Bidirectionnalité** : BERT considère simultanément les informations contextuelles gauche et droite, permettant une meilleure compréhension du sens des mots.
43-
44-
- **Pré-entraînement et Affinage** : Grâce aux tâches de pré-entraînement (comme le Masked Language Model et la Next Sentence Prediction), BERT peut être rapidement affiné pour diverses tâches en aval.
45-
46-
**Scénarios d'Application :**
47-
48-
- Classification de Texte
49-
50-
- Reconnaissance d'Entités Nommées
51-
52-
- Systèmes de Questions-Réponses
53-
54-
### mT5-XL (Multilingual Text-to-Text Transfer Transformer)
55-
56-
mT5-XL est la version multilingue du modèle T5, utilisant une architecture encodeur-décodeur qui prend en charge le traitement de plusieurs langues.
57-
58-
Il unifie toutes les tâches NLP en transformations texte-à-texte, capable de gérer diverses tâches incluant la traduction, le résumé et les questions-réponses.
59-
60-
**Caractéristiques Principales :**
61-
62-
- **Support Multilingue** : mT5-XL prend en charge le traitement de jusqu'à 101 langues.
63-
64-
- **Représentation Unifiée des Tâches** : Conversion de toutes les tâches au format texte-à-texte, simplifiant le pipeline de traitement des tâches.
65-
66-
**Scénarios d'Application :**
67-
68-
- Traduction Automatique
69-
70-
- Résumé de Texte
71-
72-
- Systèmes de Questions-Réponses
73-
74-
### Articles de Recherche sur BERT et mT5-XL
75-
76-
1. [BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding](https://arxiv.org/pdf/1810.04805)
77-
- **Description** : Cet article fondamental présente BERT, un modèle basé sur les transformers qui obtient des résultats état de l'art sur un large éventail de tâches NLP.
78-
79-
2. [mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer](https://aclanthology.org/2021.naacl-main.41.pdf)
80-
- **Description** : Cet article présente mT5, une variante multilingue de T5, entraînée sur un nouveau jeu de données basé sur Common Crawl couvrant 101 langues.
81-
82-
3. [mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences](https://arxiv.org/pdf/2112.08760)
83-
- **Description** : Ce travail développe mLongT5, un modèle multilingue conçu pour gérer efficacement les séquences d'entrée plus longues.
84-
85-
4. [Bridging Linguistic Barriers: Inside Google's mT5 Multilingual Technology](https://medium.com/@rukaiya.rk24/bridging-linguistic-barriers-inside-googles-mt5-multilingual-technology-4a85e6ca056f)
86-
- **Description** : Un article discutant des capacités et applications du modèle mT5 de Google dans les tâches NLP multilingues.
87-
88-
5. [BERT-related Papers](https://github.com/tomohideshibata/BERT-related-papers)
89-
- **Description** : Une liste organisée d'articles de recherche liés à BERT, incluant des études, des tâches en aval et des modifications.
14+
| Paramètre | Data Type | Description |
15+
|-----------|-----------|-------------|
16+
| `CONDITIONNEMENT` | CONDITIONING | La sortie conditionnelle encodée utilisée pour le traitement ultérieur dans les tâches de génération. |

0 commit comments

Comments
 (0)