TensorSpeech
diff --git a/‎examples/conformer/tflite.py‎
Lines changed: 2 additions & 2 deletions b/‎examples/conformer/tflite.py‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/contextnet/test.py‎
Lines changed: 50 additions & 24 deletions b/‎examples/contextnet/test.py‎
Lines changed: 50 additions & 24 deletions
diff --git a/‎examples/contextnet/tflite.py‎
Lines changed: 16 additions & 22 deletions b/‎examples/contextnet/tflite.py‎
Lines changed: 16 additions & 22 deletions
diff --git a/‎examples/contextnet/train.py‎
Lines changed: 51 additions & 47 deletions b/‎examples/contextnet/train.py‎
Lines changed: 51 additions & 47 deletions
@@ -22,13 +22,13 @@
 from tensorflow_asr.configs.config import Config
 from tensorflow_asr.featurizers.speech_featurizers import TFSpeechFeaturizer
 from tensorflow_asr.featurizers.text_featurizers import SubwordFeaturizer, CharFeaturizer
-from tensorflow_asr.models.conformer import Conformer
+from tensorflow_asr.models.transducer.conformer import Conformer
 
 DEFAULT_YAML = os.path.join(os.path.abspath(os.path.dirname(__file__)), "config.yml")
 
 tf.keras.backend.clear_session()
 
-parser = argparse.ArgumentParser(prog="Conformer Testing")
+parser = argparse.ArgumentParser(prog="Conformer TFLite")
 
 parser.add_argument("--config", type=str, default=DEFAULT_YAML, help="The file path of model configuration file")
 
 
@@ -13,17 +13,18 @@
 # limitations under the License.
 
 import os
+from tqdm import tqdm
 import argparse
-from tensorflow_asr.utils import setup_environment, setup_devices
+from tensorflow_asr.utils import env_util, file_util
 
-setup_environment()
+env_util.setup_environment()
 import tensorflow as tf
 
 DEFAULT_YAML = os.path.join(os.path.abspath(os.path.dirname(__file__)), "config.yml")
 
 tf.keras.backend.clear_session()
 
-parser = argparse.ArgumentParser(prog="ContextNet Testing")
+parser = argparse.ArgumentParser(prog="Contextnet Testing")
 
 parser.add_argument("--config", type=str, default=DEFAULT_YAML, help="The file path of model configuration file")
 
@@ -33,60 +34,85 @@
 
 parser.add_argument("--mxp", default=False, action="store_true", help="Enable mixed precision")
 
+parser.add_argument("--bs", type=int, default=None, help="Test batch size")
+
+parser.add_argument("--sentence_piece", default=False, action="store_true", help="Whether to use `SentencePiece` model")
+
+parser.add_argument("--subwords", default=False, action="store_true", help="Use subwords")
+
 parser.add_argument("--device", type=int, default=0, help="Device's id to run test on")
 
 parser.add_argument("--cpu", default=False, action="store_true", help="Whether to only use cpu")
 
-parser.add_argument("--subwords", type=str, default=None, help="Path to file that stores generated subwords")
-
-parser.add_argument("--output_name", type=str, default="test", help="Result filename name prefix")
+parser.add_argument("--output", type=str, default="test.tsv", help="Result filepath")
 
 args = parser.parse_args()
 
+assert args.saved
+
 tf.config.optimizer.set_experimental_options({"auto_mixed_precision": args.mxp})
 
-setup_devices([args.device], cpu=args.cpu)
+env_util.setup_devices([args.device], cpu=args.cpu)
 
 from tensorflow_asr.configs.config import Config
 from tensorflow_asr.datasets.asr_dataset import ASRTFRecordDataset, ASRSliceDataset
 from tensorflow_asr.featurizers.speech_featurizers import TFSpeechFeaturizer
-from tensorflow_asr.featurizers.text_featurizers import SubwordFeaturizer
-from tensorflow_asr.runners.base_runners import BaseTester
-from tensorflow_asr.models.contextnet import ContextNet
+from tensorflow_asr.featurizers.text_featurizers import SubwordFeaturizer, SentencePieceFeaturizer, CharFeaturizer
+from tensorflow_asr.models.transducer.contextnet import ContextNet
+from tensorflow_asr.utils import app_util
 
 config = Config(args.config)
 speech_featurizer = TFSpeechFeaturizer(config.speech_config)
 
-if args.subwords and os.path.exists(args.subwords):
-    print("Loading subwords ...")
-    text_featurizer = SubwordFeaturizer.load_from_file(config.decoder_config, args.subwords)
+if args.sentence_piece:
+    print("Use SentencePiece ...")
+    text_featurizer = SentencePieceFeaturizer(config.decoder_config)
+elif args.subwords:
+    print("Use subwords ...")
+    text_featurizer = SubwordFeaturizer(config.decoder_config)
 else:
-    raise ValueError("subwords must be set")
+    print("Use characters ...")
+    text_featurizer = CharFeaturizer(config.decoder_config)
 
 tf.random.set_seed(0)
-assert args.saved
 
 if args.tfrecords:
     test_dataset = ASRTFRecordDataset(
-        speech_featurizer=speech_featurizer, text_featurizer=text_featurizer,
+        speech_featurizer=speech_featurizer,
+        text_featurizer=text_featurizer,
         **vars(config.learning_config.test_dataset_config)
     )
 else:
     test_dataset = ASRSliceDataset(
-        speech_featurizer=speech_featurizer, text_featurizer=text_featurizer,
+        speech_featurizer=speech_featurizer,
+        text_featurizer=text_featurizer,
         **vars(config.learning_config.test_dataset_config)
     )
 
 # build model
 contextnet = ContextNet(**config.model_config, vocabulary_size=text_featurizer.num_classes)
 contextnet._build(speech_featurizer.shape)
 contextnet.load_weights(args.saved)
-contextnet.summary(line_length=120)
+contextnet.summary(line_length=100)
 contextnet.add_featurizers(speech_featurizer, text_featurizer)
 
-contextnet_tester = BaseTester(
-    config=config.learning_config.running_config,
-    output_name=args.output_name
-)
-contextnet_tester.compile(contextnet)
-contextnet_tester.run(test_dataset)
+batch_size = args.bs or config.learning_config.running_config.batch_size
+test_data_loader = test_dataset.create(batch_size)
+
+with file_util.save_file(file_util.preprocess_paths(args.output)) as filepath:
+    overwrite = False
+    if tf.io.gfile.exists(filepath):
+        overwrite = input("Overwrite existing result file? (y/n): ").lower() == "y"
+    if overwrite:
+        results = contextnet.predict(test_data_loader, verbose=1)
+        print(f"Saving result to {args.output} ...")
+        with open(filepath, "w") as openfile:
+            openfile.write("PATH\tDURATION\tGROUNDTRUTH\tGREEDY\tBEAMSEARCH\n")
+            progbar = tqdm(total=test_dataset.total_steps, unit="batch")
+            for i, pred in enumerate(results):
+                groundtruth, greedy, beamsearch = [x.decode('utf-8') for x in pred]
+                path, duration, _ = test_dataset.entries[i]
+                openfile.write(f"{path}\t{duration}\t{groundtruth}\t{greedy}\t{beamsearch}\n")
+                progbar.update(1)
+            progbar.close()
+    app_util.evaluate_results(filepath)
@@ -14,33 +14,29 @@
 
 import os
 import argparse
-from tensorflow_asr.utils import setup_environment
+from tensorflow_asr.utils import env_util, file_util
 
-setup_environment()
+env_util.setup_environment()
 import tensorflow as tf
 
 from tensorflow_asr.configs.config import Config
 from tensorflow_asr.featurizers.speech_featurizers import TFSpeechFeaturizer
-from tensorflow_asr.featurizers.text_featurizers import SubwordFeaturizer
-from tensorflow_asr.models.contextnet import ContextNet
+from tensorflow_asr.featurizers.text_featurizers import SubwordFeaturizer, CharFeaturizer
+from tensorflow_asr.models.transducer.contextnet import ContextNet
 
 DEFAULT_YAML = os.path.join(os.path.abspath(os.path.dirname(__file__)), "config.yml")
 
 tf.keras.backend.clear_session()
 
-parser = argparse.ArgumentParser(prog="ContextNet Testing")
+parser = argparse.ArgumentParser(prog="ContextNet TFLite")
 
-parser.add_argument("--config", type=str, default=DEFAULT_YAML,
-                    help="The file path of model configuration file")
+parser.add_argument("--config", type=str, default=DEFAULT_YAML, help="The file path of model configuration file")
 
-parser.add_argument("--saved", type=str, default=None,
-                    help="Path to saved model")
+parser.add_argument("--saved", type=str, default=None, help="Path to saved model")
 
-parser.add_argument("--subwords", type=str, default=None,
-                    help="Path to file that stores generated subwords")
+parser.add_argument("--subwords", type=str, default=None, help="Use subwords")
 
-parser.add_argument("output", type=str, default=None,
-                    help="TFLite file path to be exported")
+parser.add_argument("output", type=str, default=None, help="TFLite file path to be exported")
 
 args = parser.parse_args()
 
@@ -49,27 +45,25 @@
 config = Config(args.config)
 speech_featurizer = TFSpeechFeaturizer(config.speech_config)
 
-if args.subwords and os.path.exists(args.subwords):
-    print("Loading subwords ...")
-    text_featurizer = SubwordFeaturizer.load_from_file(config.decoder_config, args.subwords)
+if args.subwords:
+    text_featurizer = SubwordFeaturizer(config.decoder_config)
 else:
-    raise ValueError("subwords must be set")
+    text_featurizer = CharFeaturizer(config.decoder_config)
 
 # build model
 contextnet = ContextNet(**config.model_config, vocabulary_size=text_featurizer.num_classes)
 contextnet._build(speech_featurizer.shape)
 contextnet.load_weights(args.saved)
-contextnet.summary(line_length=150)
+contextnet.summary(line_length=100)
 contextnet.add_featurizers(speech_featurizer, text_featurizer)
 
 concrete_func = contextnet.make_tflite_function().get_concrete_function()
 converter = tf.lite.TFLiteConverter.from_concrete_functions([concrete_func])
+converter.experimental_new_converter = True
 converter.optimizations = [tf.lite.Optimize.DEFAULT]
-converter.target_spec.supported_ops = [tf.lite.OpsSet.TFLITE_BUILTINS,
-                                       tf.lite.OpsSet.SELECT_TF_OPS]
+converter.target_spec.supported_ops = [tf.lite.OpsSet.TFLITE_BUILTINS, tf.lite.OpsSet.SELECT_TF_OPS]
 tflite_model = converter.convert()
 
-if not os.path.exists(os.path.dirname(args.output)):
-    os.makedirs(os.path.dirname(args.output))
+args.output = file_util.preprocess_paths(args.output)
 with open(args.output, "wb") as tflite_out:
     tflite_out.write(tflite_model)
@@ -15,96 +15,99 @@
 import os
 import math
 import argparse
-from tensorflow_asr.utils import setup_environment, setup_strategy
+from tensorflow_asr.utils import env_util
 
-setup_environment()
+env_util.setup_environment()
 import tensorflow as tf
 
 DEFAULT_YAML = os.path.join(os.path.abspath(os.path.dirname(__file__)), "config.yml")
 
 tf.keras.backend.clear_session()
 
-parser = argparse.ArgumentParser(prog="ContextNet Training")
+parser = argparse.ArgumentParser(prog="Contextnet Training")
 
 parser.add_argument("--config", type=str, default=DEFAULT_YAML, help="The file path of model configuration file")
 
-parser.add_argument("--max_ckpts", type=int, default=10, help="Max number of checkpoints to keep")
-
 parser.add_argument("--tfrecords", default=False, action="store_true", help="Whether to use tfrecords")
 
+parser.add_argument("--sentence_piece", default=False, action="store_true", help="Whether to use `SentencePiece` model")
+
+parser.add_argument("--subwords", default=False, action="store_true", help="Use subwords")
+
 parser.add_argument("--tbs", type=int, default=None, help="Train batch size per replica")
 
 parser.add_argument("--ebs", type=int, default=None, help="Evaluation batch size per replica")
 
 parser.add_argument("--spx", type=int, default=1, help="Steps per execution for maximizing performance")
 
-parser.add_argument("--metadata_prefix", type=str, default=None, help="Path to file containing metadata")
+parser.add_argument("--metadata", type=str, default=None, help="Path to file containing metadata")
+
+parser.add_argument("--static_length", default=False, action="store_true", help="Use static lengths")
 
 parser.add_argument("--devices", type=int, nargs="*", default=[0], help="Devices' ids to apply distributed training")
 
 parser.add_argument("--mxp", default=False, action="store_true", help="Enable mixed precision")
 
-parser.add_argument("--subwords", type=str, default=None, help="Path to file that stores generated subwords")
-
-parser.add_argument("--subwords_corpus", nargs="*", type=str, default=[], help="Transcript files for generating subwords")
-
 args = parser.parse_args()
 
 tf.config.optimizer.set_experimental_options({"auto_mixed_precision": args.mxp})
 
-strategy = setup_strategy(args.devices)
+strategy = env_util.setup_strategy(args.devices)
 
 from tensorflow_asr.configs.config import Config
-from tensorflow_asr.datasets.keras import ASRTFRecordDatasetKeras, ASRSliceDatasetKeras
-from tensorflow_asr.featurizers.speech_featurizers import TFSpeechFeaturizer
-from tensorflow_asr.featurizers.text_featurizers import SubwordFeaturizer
-from tensorflow_asr.models.keras.contextnet import ContextNet
+from tensorflow_asr.datasets import asr_dataset
+from tensorflow_asr.featurizers import speech_featurizers, text_featurizers
+from tensorflow_asr.models.transducer.contextnet import ContextNet
 from tensorflow_asr.optimizers.schedules import TransformerSchedule
 
 config = Config(args.config)
-speech_featurizer = TFSpeechFeaturizer(config.speech_config)
+speech_featurizer = speech_featurizers.TFSpeechFeaturizer(config.speech_config)
 
-if args.subwords and os.path.exists(args.subwords):
+if args.sentence_piece:
+    print("Loading SentencePiece model ...")
+    text_featurizer = text_featurizers.SentencePieceFeaturizer(config.decoder_config)
+elif args.subwords:
     print("Loading subwords ...")
-    text_featurizer = SubwordFeaturizer.load_from_file(config.decoder_config, args.subwords)
+    text_featurizer = text_featurizers.SubwordFeaturizer(config.decoder_config)
 else:
-    print("Generating subwords ...")
-    text_featurizer = SubwordFeaturizer.build_from_corpus(
-        config.decoder_config,
-        corpus_files=args.subwords_corpus
-    )
-    text_featurizer.save_to_file(args.subwords)
+    print("Use characters ...")
+    text_featurizer = text_featurizers.CharFeaturizer(config.decoder_config)
 
 if args.tfrecords:
-    train_dataset = ASRTFRecordDatasetKeras(
-        speech_featurizer=speech_featurizer, text_featurizer=text_featurizer,
+    train_dataset = asr_dataset.ASRTFRecordDataset(
+        speech_featurizer=speech_featurizer,
+        text_featurizer=text_featurizer,
         **vars(config.learning_config.train_dataset_config),
         indefinite=True
     )
-    eval_dataset = ASRTFRecordDatasetKeras(
-        speech_featurizer=speech_featurizer, text_featurizer=text_featurizer,
+    eval_dataset = asr_dataset.ASRTFRecordDataset(
+        speech_featurizer=speech_featurizer,
+        text_featurizer=text_featurizer,
         **vars(config.learning_config.eval_dataset_config),
         indefinite=True
     )
-    # Update metadata calculated from both train and eval datasets
-    train_dataset.load_metadata(args.metadata_prefix)
-    eval_dataset.load_metadata(args.metadata_prefix)
-    # Use dynamic length
-    speech_featurizer.reset_length()
-    text_featurizer.reset_length()
 else:
-    train_dataset = ASRSliceDatasetKeras(
-        speech_featurizer=speech_featurizer, text_featurizer=text_featurizer,
+    train_dataset = asr_dataset.ASRSliceDataset(
+        speech_featurizer=speech_featurizer,
+        text_featurizer=text_featurizer,
         **vars(config.learning_config.train_dataset_config),
         indefinite=True
     )
-    eval_dataset = ASRSliceDatasetKeras(
-        speech_featurizer=speech_featurizer, text_featurizer=text_featurizer,
+    eval_dataset = asr_dataset.ASRSliceDataset(
+        speech_featurizer=speech_featurizer,
+        text_featurizer=text_featurizer,
         **vars(config.learning_config.eval_dataset_config),
         indefinite=True
     )
 
-global_batch_size = config.learning_config.running_config.batch_size
+train_dataset.load_metadata(args.metadata)
+eval_dataset.load_metadata(args.metadata)
+
+if not args.static_length:
+    speech_featurizer.reset_length()
+    text_featurizer.reset_length()
+
+global_batch_size = args.tbs or config.learning_config.running_config.batch_size
 global_batch_size *= strategy.num_replicas_in_sync
 
 train_data_loader = train_dataset.create(global_batch_size)
@@ -114,17 +117,15 @@
     # build model
     contextnet = ContextNet(**config.model_config, vocabulary_size=text_featurizer.num_classes)
     contextnet._build(speech_featurizer.shape)
-    contextnet.summary(line_length=120)
+    contextnet.summary(line_length=100)
 
     optimizer = tf.keras.optimizers.Adam(
         TransformerSchedule(
             d_model=contextnet.dmodel,
-            warmup_steps=config.learning_config.optimizer_config["warmup_steps"],
+            warmup_steps=config.learning_config.optimizer_config.pop("warmup_steps", 10000),
             max_lr=(0.05 / math.sqrt(contextnet.dmodel))
         ),
-        beta_1=config.learning_config.optimizer_config["beta1"],
-        beta_2=config.learning_config.optimizer_config["beta2"],
-        epsilon=config.learning_config.optimizer_config["epsilon"]
+        **config.learning_config.optimizer_config
     )
 
     contextnet.compile(
@@ -141,7 +142,10 @@
 ]
 
 contextnet.fit(
-    train_data_loader, epochs=config.learning_config.running_config.num_epochs,
-    validation_data=eval_data_loader, callbacks=callbacks,
-    steps_per_epoch=train_dataset.total_steps, validation_steps=eval_dataset.total_steps
+    train_data_loader,
+    epochs=config.learning_config.running_config.num_epochs,
+    validation_data=eval_data_loader,
+    callbacks=callbacks,
+    steps_per_epoch=train_dataset.total_steps,
+    validation_steps=eval_dataset.total_steps
 )