TensorSpeech
diff --git a/‎examples/conformer/config.yml‎
Lines changed: 13 additions & 19 deletions b/‎examples/conformer/config.yml‎
Lines changed: 13 additions & 19 deletions
diff --git a/‎examples/conformer/tflite.py‎
Lines changed: 12 additions & 18 deletions b/‎examples/conformer/tflite.py‎
Lines changed: 12 additions & 18 deletions
diff --git a/‎examples/conformer/train.py‎
Lines changed: 47 additions & 41 deletions b/‎examples/conformer/train.py‎
Lines changed: 47 additions & 41 deletions
@@ -24,14 +24,14 @@ speech_config:
   normalize_per_feature: False
 
 decoder_config:
-  vocabulary: null
+  vocabulary: ./vocabularies/librispeech/librispeech_train_10_1008.subwords
   target_vocab_size: 1000
   max_subword_length: 10
   blank_at_zero: True
-  beam_width: 5
+  beam_width: 0
   norm_score: True
   corpus_files:
-    - /media/nlhuy/Data/ML/Datasets/ASR/Raw/LibriSpeech/train-clean-100/transcripts.tsv
+    - /mnt/h/ML/Datasets/ASR/Raw/LibriSpeech/train-clean-100/transcripts.tsv
 
 model_config:
   name: conformer
@@ -40,7 +40,7 @@ model_config:
     filters: 144
     kernel_size: 3
     strides: 2
-  encoder_positional_encoding: sinusoid_concat_v2
+  encoder_positional_encoding: sinusoid_concat
   encoder_dmodel: 144
   encoder_num_blocks: 16
   encoder_head_size: 36
@@ -75,19 +75,18 @@ learning_config:
           num_masks: 1
           mask_factor: 27
     data_paths:
-      - /mnt/Data/ML/Datasets/ASR/Raw/LibriSpeech/train-clean-100/transcripts.tsv
-    tfrecords_dir: /mnt/Miscellanea/Datasets/Speech/LibriSpeech/tfrecords
+      - /mnt/h/ML/Datasets/ASR/Raw/LibriSpeech/train-clean-100/transcripts.tsv
+    tfrecords_dir: null
     shuffle: True
     cache: True
-    cache_percent: 0.2
     buffer_size: 100
     drop_remainder: True
     stage: train
 
   eval_dataset_config:
     use_tf: True
     data_paths: null
-    tfrecords_dir: /mnt/Miscellanea/Datasets/Speech/LibriSpeech/tfrecords
+    tfrecords_dir: null
     shuffle: False
     cache: True
     buffer_size: 100
@@ -97,7 +96,7 @@ learning_config:
   test_dataset_config:
     use_tf: True
     data_paths: null
-    tfrecords_dir: /mnt/Miscellanea/Datasets/Speech/LibriSpeech/tfrecords
+    tfrecords_dir: null
     shuffle: False
     cache: True
     buffer_size: 100
@@ -106,26 +105,21 @@ learning_config:
 
   optimizer_config:
     warmup_steps: 40000
-    beta1: 0.9
-    beta2: 0.98
+    beta_1: 0.9
+    beta_2: 0.98
     epsilon: 1e-9
 
   running_config:
     batch_size: 2
-    accumulation_steps: 4
     num_epochs: 50
-    outdir: /mnt/Miscellanea/Models/local/conformer
-    log_interval_steps: 300
-    eval_interval_steps: 500
-    save_interval_steps: 1000
     checkpoint:
-      filepath: /mnt/Miscellanea/Models/local/conformer/checkpoints/{epoch:02d}.h5
+      filepath: /mnt/e/Models/local/conformer/checkpoints/{epoch:02d}.h5
       save_best_only: True
       save_weights_only: False
       save_freq: epoch
-    states_dir: /mnt/Miscellanea/Models/local/conformer/states
+    states_dir: /mnt/e/Models/local/conformer/states
     tensorboard:
-      log_dir: /mnt/Miscellanea/Models/local/conformer/tensorboard
+      log_dir: /mnt/e/Models/local/conformer/tensorboard
       histogram_freq: 1
       write_graph: True
       write_images: True
 
@@ -14,14 +14,14 @@
 
 import os
 import argparse
-from tensorflow_asr.utils import setup_environment
+from tensorflow_asr.utils import env_util, file_util
 
-setup_environment()
+env_util.setup_environment()
 import tensorflow as tf
 
 from tensorflow_asr.configs.config import Config
 from tensorflow_asr.featurizers.speech_featurizers import TFSpeechFeaturizer
-from tensorflow_asr.featurizers.text_featurizers import SubwordFeaturizer
+from tensorflow_asr.featurizers.text_featurizers import SubwordFeaturizer, CharFeaturizer
 from tensorflow_asr.models.conformer import Conformer
 
 DEFAULT_YAML = os.path.join(os.path.abspath(os.path.dirname(__file__)), "config.yml")
@@ -30,17 +30,13 @@
 
 parser = argparse.ArgumentParser(prog="Conformer Testing")
 
-parser.add_argument("--config", type=str, default=DEFAULT_YAML,
-                    help="The file path of model configuration file")
+parser.add_argument("--config", type=str, default=DEFAULT_YAML, help="The file path of model configuration file")
 
-parser.add_argument("--saved", type=str, default=None,
-                    help="Path to saved model")
+parser.add_argument("--saved", type=str, default=None, help="Path to saved model")
 
-parser.add_argument("--subwords", type=str, default=None,
-                    help="Path to file that stores generated subwords")
+parser.add_argument("--subwords", type=str, default=None, help="Use subwords")
 
-parser.add_argument("output", type=str, default=None,
-                    help="TFLite file path to be exported")
+parser.add_argument("output", type=str, default=None, help="TFLite file path to be exported")
 
 args = parser.parse_args()
 
@@ -49,17 +45,16 @@
 config = Config(args.config)
 speech_featurizer = TFSpeechFeaturizer(config.speech_config)
 
-if args.subwords and os.path.exists(args.subwords):
-    print("Loading subwords ...")
-    text_featurizer = SubwordFeaturizer.load_from_file(config.decoder_config, args.subwords)
+if args.subwords:
+    text_featurizer = SubwordFeaturizer(config.decoder_config)
 else:
-    raise ValueError("subwords must be set")
+    text_featurizer = CharFeaturizer(config.decoder_config)
 
 # build model
 conformer = Conformer(**config.model_config, vocabulary_size=text_featurizer.num_classes)
 conformer._build(speech_featurizer.shape)
 conformer.load_weights(args.saved)
-conformer.summary(line_length=150)
+conformer.summary(line_length=100)
 conformer.add_featurizers(speech_featurizer, text_featurizer)
 
 concrete_func = conformer.make_tflite_function().get_concrete_function()
@@ -69,7 +64,6 @@
 converter.target_spec.supported_ops = [tf.lite.OpsSet.TFLITE_BUILTINS, tf.lite.OpsSet.SELECT_TF_OPS]
 tflite_model = converter.convert()
 
-if not os.path.exists(os.path.dirname(args.output)):
-    os.makedirs(os.path.dirname(args.output))
+args.output = file_util.preprocess_paths(args.output)
 with open(args.output, "wb") as tflite_out:
     tflite_out.write(tflite_model)
@@ -15,9 +15,9 @@
 import os
 import math
 import argparse
-from tensorflow_asr.utils import setup_environment, setup_strategy
+from tensorflow_asr.utils import env_util
 
-setup_environment()
+env_util.setup_environment()
 import tensorflow as tf
 
 DEFAULT_YAML = os.path.join(os.path.abspath(os.path.dirname(__file__)), "config.yml")
@@ -28,81 +28,86 @@
 
 parser.add_argument("--config", type=str, default=DEFAULT_YAML, help="The file path of model configuration file")
 
-parser.add_argument("--max_ckpts", type=int, default=10, help="Max number of checkpoints to keep")
-
 parser.add_argument("--tfrecords", default=False, action="store_true", help="Whether to use tfrecords")
 
 parser.add_argument("--sentence_piece", default=False, action="store_true", help="Whether to use `SentencePiece` model")
 
+parser.add_argument("--subwords", default=False, action="store_true", help="Use subwords")
+
 parser.add_argument("--tbs", type=int, default=None, help="Train batch size per replica")
 
 parser.add_argument("--ebs", type=int, default=None, help="Evaluation batch size per replica")
 
 parser.add_argument("--spx", type=int, default=1, help="Steps per execution for maximizing performance")
 
-parser.add_argument("--metadata_prefix", type=str, default=None, help="Path to file containing metadata")
+parser.add_argument("--metadata", type=str, default=None, help="Path to file containing metadata")
+
+parser.add_argument("--static_length", default=False, action="store_true", help="Use static lengths")
 
 parser.add_argument("--devices", type=int, nargs="*", default=[0], help="Devices' ids to apply distributed training")
 
 parser.add_argument("--mxp", default=False, action="store_true", help="Enable mixed precision")
 
-parser.add_argument("--subwords", default=False, action="store_true", help="Use subwords")
-
 args = parser.parse_args()
 
 tf.config.optimizer.set_experimental_options({"auto_mixed_precision": args.mxp})
 
-strategy = setup_strategy(args.devices)
+strategy = env_util.setup_strategy(args.devices)
 
 from tensorflow_asr.configs.config import Config
-from tensorflow_asr.datasets.keras import ASRTFRecordDatasetKeras, ASRSliceDatasetKeras
-from tensorflow_asr.featurizers.speech_featurizers import TFSpeechFeaturizer
-from tensorflow_asr.featurizers.text_featurizers import SubwordFeaturizer, SentencePieceFeaturizer, CharFeaturizer
-from tensorflow_asr.models.keras.conformer import Conformer
+from tensorflow_asr.datasets import asr_dataset
+from tensorflow_asr.featurizers import speech_featurizers, text_featurizers
+from tensorflow_asr.models.transducer.conformer import Conformer
 from tensorflow_asr.optimizers.schedules import TransformerSchedule
 
 config = Config(args.config)
-speech_featurizer = TFSpeechFeaturizer(config.speech_config)
+speech_featurizer = speech_featurizers.TFSpeechFeaturizer(config.speech_config)
 
 if args.sentence_piece:
     print("Loading SentencePiece model ...")
-    text_featurizer = SentencePieceFeaturizer(config.decoder_config)
+    text_featurizer = text_featurizers.SentencePieceFeaturizer(config.decoder_config)
 elif args.subwords:
     print("Loading subwords ...")
-    text_featurizer = SubwordFeaturizer(config.decoder_config)
+    text_featurizer = text_featurizers.SubwordFeaturizer(config.decoder_config)
 else:
     print("Use characters ...")
-    text_featurizer = CharFeaturizer(config.decoder_config)
+    text_featurizer = text_featurizers.CharFeaturizer(config.decoder_config)
 
 if args.tfrecords:
-    train_dataset = ASRTFRecordDatasetKeras(
-        speech_featurizer=speech_featurizer, text_featurizer=text_featurizer,
+    train_dataset = asr_dataset.ASRTFRecordDataset(
+        speech_featurizer=speech_featurizer,
+        text_featurizer=text_featurizer,
         **vars(config.learning_config.train_dataset_config),
         indefinite=True
     )
-    eval_dataset = ASRTFRecordDatasetKeras(
-        speech_featurizer=speech_featurizer, text_featurizer=text_featurizer,
-        **vars(config.learning_config.eval_dataset_config)
+    eval_dataset = asr_dataset.ASRTFRecordDataset(
+        speech_featurizer=speech_featurizer,
+        text_featurizer=text_featurizer,
+        **vars(config.learning_config.eval_dataset_config),
+        indefinite=True
     )
-    # Update metadata calculated from both train and eval datasets
-    train_dataset.load_metadata(args.metadata_prefix)
-    eval_dataset.load_metadata(args.metadata_prefix)
-    # Use dynamic length
-    speech_featurizer.reset_length()
-    text_featurizer.reset_length()
 else:
-    train_dataset = ASRSliceDatasetKeras(
-        speech_featurizer=speech_featurizer, text_featurizer=text_featurizer,
+    train_dataset = asr_dataset.ASRSliceDataset(
+        speech_featurizer=speech_featurizer,
+        text_featurizer=text_featurizer,
         **vars(config.learning_config.train_dataset_config),
         indefinite=True
     )
-    eval_dataset = ASRSliceDatasetKeras(
-        speech_featurizer=speech_featurizer, text_featurizer=text_featurizer,
-        **vars(config.learning_config.train_dataset_config),
+    eval_dataset = asr_dataset.ASRSliceDataset(
+        speech_featurizer=speech_featurizer,
+        text_featurizer=text_featurizer,
+        **vars(config.learning_config.eval_dataset_config),
         indefinite=True
     )
 
-global_batch_size = config.learning_config.running_config.batch_size
+train_dataset.load_metadata(args.metadata)
+eval_dataset.load_metadata(args.metadata)
+
+if not args.static_length:
+    speech_featurizer.reset_length()
+    text_featurizer.reset_length()
+
+global_batch_size = args.tbs or config.learning_config.running_config.batch_size
 global_batch_size *= strategy.num_replicas_in_sync
 
 train_data_loader = train_dataset.create(global_batch_size)
@@ -112,17 +117,15 @@
     # build model
     conformer = Conformer(**config.model_config, vocabulary_size=text_featurizer.num_classes)
     conformer._build(speech_featurizer.shape)
-    conformer.summary(line_length=120)
+    conformer.summary(line_length=100)
 
     optimizer = tf.keras.optimizers.Adam(
         TransformerSchedule(
             d_model=conformer.dmodel,
-            warmup_steps=config.learning_config.optimizer_config["warmup_steps"],
+            warmup_steps=config.learning_config.optimizer_config.pop("warmup_steps", 10000),
             max_lr=(0.05 / math.sqrt(conformer.dmodel))
         ),
-        beta_1=config.learning_config.optimizer_config["beta1"],
-        beta_2=config.learning_config.optimizer_config["beta2"],
-        epsilon=config.learning_config.optimizer_config["epsilon"]
+        **config.learning_config.optimizer_config
     )
 
     conformer.compile(
@@ -139,7 +142,10 @@
 ]
 
 conformer.fit(
-    train_data_loader, epochs=config.learning_config.running_config.num_epochs,
-    validation_data=eval_data_loader, callbacks=callbacks,
-    steps_per_epoch=train_dataset.total_steps, validation_steps=eval_dataset.total_steps
+    train_data_loader,
+    epochs=config.learning_config.running_config.num_epochs,
+    validation_data=eval_data_loader,
+    callbacks=callbacks,
+    steps_per_epoch=train_dataset.total_steps,
+    validation_steps=eval_dataset.total_steps
 )