Update training guide (#102)

ylacombe · web-flow · commit 8f5ef3a28185 · 2024-08-15T16:42:33.000+02:00
* Update README.md

* Update README.md

* Update README.md

* update configs and readme

* fix training and eval single gpus and long audios errors

* fix error transcriptions none

* fix trascription null wer

---------

Co-authored-by: yoach@huggingface.co &lt;Yoach Lacombe&gt;
diff --git a/README.md b/README.md
@@ -118,8 +118,6 @@ We've set up an [inference guide](INFERENCE.md) to make generation faster. Think
 https://github.com/huggingface/parler-tts/assets/52246514/251e2488-fe6e-42c1-81cd-814c5b7795b0
 
 ## Training
-> [!WARNING]
-> The training guide has yet to be adapted to the newest checkpoints.
 
 <a target="_blank" href="https://colab.research.google.com/github/ylacombe/scripts_and_notebooks/blob/main/Finetuning_Parler_TTS_on_a_single_speaker_dataset.ipynb"> 
   <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/> 
@@ -131,12 +129,15 @@ The [training folder](/training/) contains all the information to train or fine-
 - [3. A training guide](/training/README.md#3-training)
 
 > [!IMPORTANT]
-> **TL;DR:** After having followed the [installation steps](/training/README.md#requirements), you can reproduce the Parler-TTS Mini v0.1 training recipe with the following command line:
+> **TL;DR:** After having followed the [installation steps](/training/README.md#requirements), you can reproduce the Parler-TTS Mini v1 training recipe with the following command line:
 
 ```sh
-accelerate launch ./training/run_parler_tts_training.py ./helpers/training_configs/starting_point_0.01.json
+accelerate launch ./training/run_parler_tts_training.py ./helpers/training_configs/starting_point_v1.json
 ```
 
+> [!IMPORTANT]
+> You can also follow [this fine-tuning guide](https://colab.research.google.com/github/ylacombe/scripts_and_notebooks/blob/main/Finetuning_Parler_TTS_on_a_single_speaker_dataset.ipynb) on a mono-speaker dataset example.
+
 ## Acknowledgements
 
 This library builds on top of a number of open-source giants, to whom we'd like to extend our warmest thanks for providing these tools!
diff --git a/helpers/model_init_scripts/init_dummy_model.py b/helpers/model_init_scripts/init_dummy_model.py
@@ -61,7 +61,7 @@
     # set other default generation config params
     model.generation_config.max_length = int(30 * model.audio_encoder.config.frame_rate)
     model.generation_config.do_sample = True  # True
-    model.generation_config.guidance_scale = 1  # 3.0
+
 
     model.config.pad_token_id = encodec_vocab_size
     model.config.decoder_start_token_id = encodec_vocab_size + 1
diff --git a/helpers/model_init_scripts/init_dummy_model_with_encodec.py b/helpers/model_init_scripts/init_dummy_model_with_encodec.py
@@ -59,7 +59,7 @@
     # set other default generation config params
     model.generation_config.max_length = int(30 * model.audio_encoder.config.frame_rate)
     model.generation_config.do_sample = True  # True
-    model.generation_config.guidance_scale = 1  # 3.0
+
 
     model.config.pad_token_id = encodec_vocab_size
     model.config.decoder_start_token_id = encodec_vocab_size + 1
diff --git a/helpers/model_init_scripts/init_large_model.py b/helpers/model_init_scripts/init_large_model.py
@@ -0,0 +1,68 @@
+from parler_tts import ParlerTTSForCausalLM, ParlerTTSForConditionalGeneration, ParlerTTSDecoderConfig
+from transformers import AutoConfig
+import os
+import argparse
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("save_directory", type=str, help="Directory where to save the model and the decoder.")
+    parser.add_argument("--text_model", type=str, help="Repository id or path to the text encoder.")
+    parser.add_argument("--audio_model", type=str, help="Repository id or path to the audio encoder.")
+
+    args = parser.parse_args()
+
+    text_model = args.text_model
+    encodec_version = args.audio_model
+
+    t5 = AutoConfig.from_pretrained(text_model)
+    encodec = AutoConfig.from_pretrained(encodec_version)
+
+    encodec_vocab_size = encodec.codebook_size
+    num_codebooks = encodec.num_codebooks
+    print("num_codebooks", num_codebooks)
+
+    decoder_config = ParlerTTSDecoderConfig(
+        vocab_size=encodec_vocab_size + 64,  # + 64 instead of +1 to have a multiple of 64
+        max_position_embeddings=4096,  # 30 s = 2580
+        num_hidden_layers=30,
+        ffn_dim=6144,
+        num_attention_heads=24,
+        num_key_value_heads=24,
+        layerdrop=0.0,
+        use_cache=True,
+        activation_function="gelu",
+        hidden_size=1536,
+        dropout=0.1,
+        attention_dropout=0.0,
+        activation_dropout=0.0,
+        pad_token_id=encodec_vocab_size,
+        eos_token_id=encodec_vocab_size,
+        bos_token_id=encodec_vocab_size + 1,
+        num_codebooks=num_codebooks,
+    )
+
+    decoder = ParlerTTSForCausalLM(decoder_config)
+    decoder.save_pretrained(os.path.join(args.save_directory, "decoder"))
+
+    model = ParlerTTSForConditionalGeneration.from_sub_models_pretrained(
+        text_encoder_pretrained_model_name_or_path=text_model,
+        audio_encoder_pretrained_model_name_or_path=encodec_version,
+        decoder_pretrained_model_name_or_path=os.path.join(args.save_directory, "decoder"),
+        vocab_size=t5.vocab_size,
+    )
+
+    # set the appropriate bos/pad token ids
+    model.generation_config.decoder_start_token_id = encodec_vocab_size + 1
+    model.generation_config.pad_token_id = encodec_vocab_size
+    model.generation_config.eos_token_id = encodec_vocab_size
+
+    # set other default generation config params
+    model.generation_config.max_length = int(30 * model.audio_encoder.config.frame_rate)
+    model.generation_config.do_sample = True  # True
+
+
+    model.config.pad_token_id = encodec_vocab_size
+    model.config.decoder_start_token_id = encodec_vocab_size + 1
+
+    model.save_pretrained(os.path.join(args.save_directory, "parler-tts-untrained-larger/"))
diff --git a/helpers/model_init_scripts/init_model_600M.py b/helpers/model_init_scripts/init_model_600M.py
@@ -61,7 +61,6 @@
     # set other default generation config params
     model.generation_config.max_length = int(30 * model.audio_encoder.config.frame_rate)
     model.generation_config.do_sample = True  # True
-    model.generation_config.guidance_scale = 1  # 3.0
 
     model.config.pad_token_id = encodec_vocab_size
     model.config.decoder_start_token_id = encodec_vocab_size + 1
diff --git a/helpers/training_configs/starting_point_v1.json b/helpers/training_configs/starting_point_v1.json
@@ -0,0 +1,76 @@
+{
+    "model_name_or_path": "./parler-tts-untrained-600M/parler-tts-untrained-600M/",
+    "save_to_disk":  "./tmp_dataset_audio/",
+    "temporary_save_to_disk": "./audio_code_tmp/",
+    "wandb_project": "parler-tts-50k-hours",
+    "wandb_run_name": "Mini",
+
+    "feature_extractor_name":"ylacombe/dac_44khZ_8kbps",
+    "description_tokenizer_name":"google/flan-t5-large",
+    "prompt_tokenizer_name":"google/flan-t5-large",
+
+    "report_to": ["wandb"],
+    "overwrite_output_dir": true,
+    "output_dir": "./output_dir_training",
+
+    "train_dataset_name": "ylacombe/libritts_r_filtered+ylacombe/libritts_r_filtered+ylacombe/libritts_r_filtered+parler-tts/mls_eng",
+    "train_metadata_dataset_name": "ylacombe/libritts-r-filtered-descriptions-10k-v5-without-accents+ylacombe/libritts-r-filtered-descriptions-10k-v5-without-accents+ylacombe/libritts-r-filtered-descriptions-10k-v5-without-accents+ylacombe/mls-eng-descriptions-v4",
+    "train_dataset_config_name": "clean+clean+other+default",
+    "train_split_name": "train.clean.360+train.clean.100+train.other.500+train",
+
+    "eval_dataset_name": "ylacombe/libritts_r_filtered+parler-tts/mls_eng",
+    "eval_metadata_dataset_name": "ylacombe/libritts-r-filtered-descriptions-10k-v5-without-accents+ylacombe/mls-eng-descriptions-v4",
+    "eval_dataset_config_name": "other+default",
+    "eval_split_name": "test.other+test",
+
+    "target_audio_column_name": "audio", 
+    "description_column_name": "text_description",
+    "prompt_column_name": "text",
+
+    "max_eval_samples": 96,
+    
+    "max_duration_in_seconds": 30,
+    "min_duration_in_seconds": 2.0,
+    "max_text_length": 600,
+
+    "group_by_length": true,
+
+    "add_audio_samples_to_wandb": true,
+    "id_column_name": "id",
+
+    "preprocessing_num_workers": 8,
+
+    "do_train": true,
+    "num_train_epochs": 4,
+    "gradient_accumulation_steps": 4,
+    "gradient_checkpointing": false,
+    "per_device_train_batch_size": 6,
+    "learning_rate": 0.00095,
+    "adam_beta1": 0.9,
+    "adam_beta2": 0.99,
+    "weight_decay": 0.01,
+
+    "lr_scheduler_type": "constant_with_warmup",
+    "warmup_steps":  20000,
+
+
+    "logging_steps": 1000,
+    "freeze_text_encoder": true,
+
+
+    "do_eval": true, 
+    "predict_with_generate": true,
+    "include_inputs_for_metrics": true,
+    "evaluation_strategy": "steps",
+    "eval_steps": 10000,
+    "save_steps": 10000,
+
+    "per_device_eval_batch_size": 4,
+
+    "audio_encoder_per_device_batch_size":24,
+    "dtype": "bfloat16",
+    "seed": 456,
+
+    "dataloader_num_workers":8,
+    "attn_implementation": "sdpa"
+}
diff --git a/helpers/training_configs/starting_point_v1_large.json b/helpers/training_configs/starting_point_v1_large.json
@@ -0,0 +1,77 @@
+{
+    "model_name_or_path": "./parler-tts-untrained-large/parler-tts-untrained-large",
+    "save_to_disk":  "./tmp_dataset_audio/",
+    "temporary_save_to_disk": "./audio_code_tmp/",
+    "wandb_project": "parler-tts-50k-hours",
+    "wandb_run_name": "Large",
+
+    "feature_extractor_name":"ylacombe/dac_44khZ_8kbps",
+    "description_tokenizer_name":"google/flan-t5-large",
+    "prompt_tokenizer_name":"google/flan-t5-large",
+
+    "report_to": ["wandb"],
+    "overwrite_output_dir": true,
+    "output_dir": "./output_dir_training",
+
+    "train_dataset_name": "ylacombe/libritts_r_filtered+ylacombe/libritts_r_filtered+ylacombe/libritts_r_filtered+parler-tts/mls_eng",
+    "train_metadata_dataset_name": "ylacombe/libritts-r-filtered-descriptions-10k-v5-without-accents+ylacombe/libritts-r-filtered-descriptions-10k-v5-without-accents+ylacombe/libritts-r-filtered-descriptions-10k-v5-without-accents+ylacombe/mls-eng-descriptions-v4",
+    "train_dataset_config_name": "clean+clean+other+default",
+    "train_split_name": "train.clean.360+train.clean.100+train.other.500+train",
+
+    "eval_dataset_name": "ylacombe/libritts_r_filtered+parler-tts/mls_eng",
+    "eval_metadata_dataset_name": "ylacombe/libritts-r-filtered-descriptions-10k-v5-without-accents+ylacombe/mls-eng-descriptions-v4",
+    "eval_dataset_config_name": "other+default",
+    "eval_split_name": "test.other+test",
+
+    "target_audio_column_name": "audio", 
+    "description_column_name": "text_description",
+    "prompt_column_name": "text",
+
+    "max_eval_samples": 96,
+    
+    "max_duration_in_seconds": 30,
+    "min_duration_in_seconds": 2.0,
+    "max_text_length": 600,
+
+    "group_by_length": true,
+
+    "add_audio_samples_to_wandb": true,
+    "id_column_name": "id",
+
+    "preprocessing_num_workers": 8,
+
+    "do_train": true,
+    "num_train_epochs": 4,
+    "gradient_accumulation_steps": 4,
+    "gradient_checkpointing": false,
+    "per_device_train_batch_size": 3,
+    "learning_rate": 0.0015,
+    "adam_beta1": 0.9,
+    "adam_beta2": 0.99,
+    "weight_decay": 0.01,
+
+    "lr_scheduler_type": "constant_with_warmup",
+    "warmup_steps":  10000,
+
+
+    "logging_steps": 1000,
+    "freeze_text_encoder": true,
+
+
+    "do_eval": true, 
+    "predict_with_generate": true,
+    "include_inputs_for_metrics": true,
+    "evaluation_strategy": "steps",
+    "eval_steps": 10000,
+    "save_steps": 10000,
+    "save_total_limit": 10,
+
+    "per_device_eval_batch_size": 6,
+
+    "audio_encoder_per_device_batch_size":24,
+    "dtype": "bfloat16",
+    "seed": 738,
+
+    "dataloader_num_workers":8,
+    "attn_implementation": "sdpa"
+}
diff --git a/training/README.md b/training/README.md
diff --git a/training/eval.py b/training/eval.py
diff --git a/training/run_parler_tts_training.py b/training/run_parler_tts_training.py