🚀 update documents

nglehuy · nglehuy · commit 352559818ead · 2021-01-31T17:10:47.000+07:00
diff --git a/README.md b/README.md
@@ -59,8 +59,8 @@ TensorFlowASR implements some automatic speech recognition architectures such as
 
 ### Baselines
 
-- **CTCModel** (End2end models using CTC Loss for training)
-- **Transducer Models** (End2end models using RNNT Loss for training)
+- **CTCModel** (End2end models using CTC Loss for training, currently supported DeepSpeech2, Jasper)
+- **Transducer Models** (End2end models using RNNT Loss for training, currently supported Conformer, ContextNet, Streaming Transducer)
 
 ### Publications
 
@@ -110,7 +110,9 @@ pip install .
 
 - For _training, testing and using_ **CTC Models**, run `./scripts/install_ctc_decoders.sh`
 
-- For _training_ **Transducer Models**, run `export CUDA_HOME=/usr/local/cuda && ./scripts/install_rnnt_loss.sh` (**Note**: only `export CUDA_HOME` when you have CUDA)
+- For _training_ **Transducer Models** with RNNT Loss from [warp-transducer](https://github.com/HawkAaron/warp-transducer), run `export CUDA_HOME=/usr/local/cuda && ./scripts/install_rnnt_loss.sh` (**Note**: only `export CUDA_HOME` when you have CUDA)
+
+- For _training_ **Transducer Models** with RNNT Loss in TF, make sure that [warp-transducer](https://github.com/HawkAaron/warp-transducer) **is not installed** (by simply run `pip3 uninstall warprnnt-tensorflow`)
 
 - For _mixed precision training_, use flag `--mxp` when running python scripts from [examples](./examples)
 
@@ -166,11 +168,17 @@ speech_config: ...
 model_config: ...
 decoder_config: ...
 learning_config:
-  augmentations: ...
-  dataset_config:
-    train_paths: ...
-    eval_paths: ...
-    test_paths: ...
+  train_dataset_config:
+    augmentation_config: ...
+    data_paths: ...
+    tfrecords_dir: ...
+  eval_dataset_config:
+    augmentation_config: ...
+    data_paths: ...
+    tfrecords_dir: ...
+  test_dataset_config:
+    augmentation_config: ...
+    data_paths: ...
     tfrecords_dir: ...
   optimizer_config: ...
   running_config:
diff --git a/examples/conformer/README.md b/examples/conformer/README.md
@@ -6,81 +6,7 @@ Reference: [https://arxiv.org/abs/2005.08100](https://arxiv.org/abs/2005.08100)
 
 ## Example Model YAML Config
 
-```yaml
-speech_config:
-  sample_rate: 16000
-  frame_ms: 25
-  stride_ms: 10
-  feature_type: log_mel_spectrogram
-  num_feature_bins: 80
-  preemphasis: 0.97
-  normalize_signal: True
-  normalize_feature: True
-  normalize_per_feature: False
-
-decoder_config:
-  vocabulary: null
-  target_vocab_size: 1024
-  max_subword_length: 4
-  blank_at_zero: True
-  beam_width: 5
-  norm_score: True
-
-model_config:
-  name: conformer
-  subsampling:
-    type: conv2
-    kernel_size: 3
-    strides: 2
-    filters: 144
-  positional_encoding: sinusoid_concat
-  dmodel: 144
-  num_blocks: 16
-  head_size: 36
-  num_heads: 4
-  mha_type: relmha
-  kernel_size: 32
-  fc_factor: 0.5
-  dropout: 0.1
-  embed_dim: 320
-  embed_dropout: 0.0
-  num_rnns: 1
-  rnn_units: 320
-  rnn_type: lstm
-  layer_norm: True
-  joint_dim: 320
-
-learning_config:
-  augmentations:
-    after:
-      time_masking:
-        num_masks: 10
-        mask_factor: 100
-        p_upperbound: 0.2
-      freq_masking:
-        num_masks: 1
-        mask_factor: 27
-
-  dataset_config:
-    train_paths: ...
-    eval_paths: ...
-    test_paths: ...
-    tfrecords_dir: ...
-
-  optimizer_config:
-    warmup_steps: 10000
-    beta1: 0.9
-    beta2: 0.98
-    epsilon: 1e-9
-
-  running_config:
-    batch_size: 4
-    num_epochs: 22
-    outdir: ...
-    log_interval_steps: 400
-    save_interval_steps: 400
-    eval_interval_steps: 1000
-```
+Go to [config.yml](./config.yml)
 
 ## Usage
 
@@ -108,9 +34,10 @@ TFLite Conversion, see `python examples/conformer/tflite_*.py --help`
 
 **Error Rates**
 
-| **Test-clean** |  WER (%)  |  CER (%)   |
-| :------------: | :-------: | :--------: |
-|    _Greedy_    | 6.4476862 | 2.51828337 |
+| **Test-clean** |  WER (%)   |  CER (%)   |
+| :------------: | :--------: | :--------: |
+|    _Greedy_    | 6.37933683 | 2.4757576  |
+|  _Greedy V2_   | 7.86670732 | 2.82563138 |
 
 | **Test-other** |  WER (%)   |  CER (%)   |
 | :------------: | :--------: | :--------: |
diff --git a/examples/contextnet/README.md b/examples/contextnet/README.md
@@ -8,219 +8,7 @@ Reference: [http://arxiv.org/abs/2005.03191](http://arxiv.org/abs/2005.03191)
 
 ## Example Model YAML Config
 
-```yaml
-speech_config:
-  sample_rate: 16000
-  frame_ms: 25
-  stride_ms: 10
-  feature_type: log_mel_spectrogram
-  num_feature_bins: 80
-  preemphasis: 0.97
-  normalize_signal: True
-  normalize_feature: True
-  normalize_per_feature: False
-
-decoder_config:
-  vocabulary: null
-  target_vocab_size: 1024
-  max_subword_length: 4
-  blank_at_zero: True
-  beam_width: 5
-  norm_score: True
-
-model_config:
-  name: contextnet
-  encoder_alpha: 0.5
-  encoder_blocks:
-    # C0
-    - nlayers: 1
-      kernel_size: 5
-      filters: 256
-      strides: 1
-      residual: False
-      activation: silu
-    # C1-C2
-    - nlayers: 5
-      kernel_size: 5
-      filters: 256
-      strides: 1
-      residual: True
-      activation: silu
-    - nlayers: 5
-      kernel_size: 5
-      filters: 256
-      strides: 1
-      residual: True
-      activation: silu
-    # C3
-    - nlayers: 5
-      kernel_size: 5
-      filters: 256
-      strides: 2
-      residual: True
-      activation: silu
-    # C4-C6
-    - nlayers: 5
-      kernel_size: 5
-      filters: 256
-      strides: 1
-      residual: True
-      activation: silu
-    - nlayers: 5
-      kernel_size: 5
-      filters: 256
-      strides: 1
-      residual: True
-      activation: silu
-    - nlayers: 5
-      kernel_size: 5
-      filters: 256
-      strides: 1
-      residual: True
-      activation: silu
-    # C7
-    - nlayers: 5
-      kernel_size: 5
-      filters: 256
-      strides: 2
-      residual: True
-      activation: silu
-    # C8 - C10
-    - nlayers: 5
-      kernel_size: 5
-      filters: 256
-      strides: 1
-      residual: True
-      activation: silu
-    - nlayers: 5
-      kernel_size: 5
-      filters: 256
-      strides: 1
-      residual: True
-      activation: silu
-    - nlayers: 5
-      kernel_size: 5
-      filters: 256
-      strides: 1
-      residual: True
-      activation: silu
-    # C11 - C13
-    - nlayers: 5
-      kernel_size: 5
-      filters: 512
-      strides: 1
-      residual: True
-      activation: silu
-    - nlayers: 5
-      kernel_size: 5
-      filters: 512
-      strides: 1
-      residual: True
-      activation: silu
-    - nlayers: 5
-      kernel_size: 5
-      filters: 512
-      strides: 1
-      residual: True
-      activation: silu
-    # C14
-    - nlayers: 5
-      kernel_size: 5
-      filters: 512
-      strides: 2
-      residual: True
-      activation: silu
-    # C15 - C21
-    - nlayers: 5
-      kernel_size: 5
-      filters: 512
-      strides: 1
-      residual: True
-      activation: silu
-    - nlayers: 5
-      kernel_size: 5
-      filters: 512
-      strides: 1
-      residual: True
-      activation: silu
-    - nlayers: 5
-      kernel_size: 5
-      filters: 512
-      strides: 1
-      residual: True
-      activation: silu
-    - nlayers: 5
-      kernel_size: 5
-      filters: 512
-      strides: 1
-      residual: True
-      activation: silu
-    - nlayers: 5
-      kernel_size: 5
-      filters: 512
-      strides: 1
-      residual: True
-      activation: silu
-    - nlayers: 5
-      kernel_size: 5
-      filters: 512
-      strides: 1
-      residual: True
-      activation: silu
-    - nlayers: 5
-      kernel_size: 5
-      filters: 512
-      strides: 1
-      residual: True
-      activation: silu
-    # C22
-    - nlayers: 1
-      kernel_size: 5
-      filters: 640
-      strides: 1
-      residual: False
-      activation: silu
-  prediction_embed_dim: 640
-  prediction_embed_dropout: 0
-  prediction_num_rnns: 1
-  prediction_rnn_units: 640
-  prediction_rnn_type: lstm
-  prediction_rnn_implementation: 1
-  prediction_layer_norm: True
-  prediction_projection_units: 0
-  joint_dim: 640
-
-learning_config:
-  augmentations:
-    after:
-      time_masking:
-        num_masks: 10
-        mask_factor: 100
-        p_upperbound: 0.2
-      freq_masking:
-        num_masks: 1
-        mask_factor: 27
-
-  dataset_config:
-    train_paths: ...
-    eval_paths: ...
-    test_paths: ...
-    tfrecords_dir: ...
-
-  optimizer_config:
-    warmup_steps: 10000
-    beta1: 0.9
-    beta2: 0.98
-    epsilon: 1e-9
-
-  running_config:
-    batch_size: 4
-    num_epochs: 22
-    outdir: ...
-    log_interval_steps: 400
-    save_interval_steps: 400
-    eval_interval_steps: 1000
-```
+Go to [config.yml](./config.yml)
 
 ## Usage
 
diff --git a/examples/deepspeech2/README.md b/examples/deepspeech2/README.md
@@ -2,24 +2,9 @@
 
 References: [https://arxiv.org/abs/1512.02595](https://arxiv.org/abs/1512.02595)
 
-## Model YAML Config Structure
-
-```yaml
-model_config:
-  conv_type: conv2d
-  conv_kernels: [[11, 41], [11, 21], [11, 11]]
-  conv_strides: [[2, 2], [1, 2], [1, 2]]
-  conv_filters: [32, 32, 96]
-  conv_dropout: 0.1
-  rnn_nlayers: 5
-  rnn_type: lstm
-  rnn_units: 512
-  rnn_bidirectional: True
-  rnn_rowconv: 0
-  rnn_dropout: 0.1
-  fc_nlayers: 0
-  fc_units: 1024
-```
+## Example YAML Config
+
+Go to [config.yml](./config.yml)
 
 ## Architecture
 
@@ -30,4 +15,3 @@ model_config:
 See `python examples/deepspeech2/train_*.py --help`
 
 See `python examples/deepspeech2/test_*.py --help`
-
diff --git a/examples/jasper/README.md b/examples/jasper/README.md
diff --git a/examples/streaming_transducer/README.md b/examples/streaming_transducer/README.md