finish speechbrain

sanchit-gandhi · sanchit-gandhi · commit dd7216a1da05 · 2024-08-07T14:02:38.000+01:00
diff --git a/speechbrain/run_conformer.sh b/speechbrain/run_conformer.sh
@@ -7,19 +7,19 @@ SOURCE="speechbrain/asr-conformer-transformerlm-librispeech"
 python run_eval.py \
 	--source=$SOURCE \
     --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="clean" \
-	--split="test" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.clean" \
 	--device=0 \
 	--batch_size=4 \
 	--max_eval_samples=-1
 
 python run_eval.py \
 	--source=$SOURCE \
     --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="other" \
-	--split="test" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.other" \
 	--device=0 \
 	--batch_size=4 \
 	--max_eval_samples=-1
diff --git a/speechbrain/run_conformersmall.sh b/speechbrain/run_conformersmall.sh
@@ -7,19 +7,19 @@ SOURCE="speechbrain/asr-conformersmall-transformerlm-librispeech"
 python run_eval.py \
 	--source=$SOURCE \
     --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="clean" \
-	--split="test" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.clean" \
 	--device=0 \
 	--batch_size=4 \
 	--max_eval_samples=-1
 
 python run_eval.py \
 	--source=$SOURCE \
     --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="other" \
-	--split="test" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.other" \
 	--device=0 \
 	--batch_size=4 \
 	--max_eval_samples=-1
diff --git a/speechbrain/run_crdnn_rnnlm.sh b/speechbrain/run_crdnn_rnnlm.sh
@@ -7,19 +7,19 @@ SOURCE="speechbrain/asr-crdnn-rnnlm-librispeech"
 python run_eval.py \
 	--source=$SOURCE \
     --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="clean" \
-	--split="test" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.clean" \
 	--device=0 \
 	--batch_size=4 \
 	--max_eval_samples=-1
 
 python run_eval.py \
 	--source=$SOURCE \
     --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="other" \
-	--split="test" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.other" \
 	--device=0 \
 	--batch_size=4 \
 	--max_eval_samples=-1
diff --git a/speechbrain/run_crdnn_transformerlm.sh b/speechbrain/run_crdnn_transformerlm.sh
@@ -7,19 +7,19 @@ SOURCE="speechbrain/asr-crdnn-transformerlm-librispeech"
 python run_eval.py \
 	--source=$SOURCE \
     --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="clean" \
-	--split="test" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.clean" \
 	--device=0 \
 	--batch_size=4 \
 	--max_eval_samples=-1
 
 python run_eval.py \
 	--source=$SOURCE \
     --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="other" \
-	--split="test" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.other" \
 	--device=0 \
 	--batch_size=4 \
 	--max_eval_samples=-1
diff --git a/speechbrain/run_eval.py b/speechbrain/run_eval.py
@@ -148,7 +148,7 @@ def benchmark(batch):
     manifest_path = data_utils.write_manifest(
         all_results["references"],
         all_results["predictions"],
-        args.model_id,
+        args.source,
         args.dataset_path,
         args.dataset,
         args.split,
@@ -186,7 +186,7 @@ def benchmark(batch):
     parser.add_argument(
         "--dataset_path",
         type=str,
-        default="esb/datasets",
+        default="hf-audio/esb-datasets-test-only-sorted",
         help="Dataset path. By default, it is `esb/datasets`",
     )
     parser.add_argument(
diff --git a/speechbrain/run_transformer_transformerlm.sh b/speechbrain/run_transformer_transformerlm.sh
@@ -7,19 +7,19 @@ SOURCE="speechbrain/asr-transformer-transformerlm-librispeech"
 python run_eval.py \
 	--source=$SOURCE \
     --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="clean" \
-	--split="test" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.clean" \
 	--device=0 \
 	--batch_size=4 \
 	--max_eval_samples=-1
 
 python run_eval.py \
 	--source=$SOURCE \
     --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="other" \
-	--split="test" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.other" \
 	--device=0 \
 	--batch_size=4 \
 	--max_eval_samples=-1
diff --git a/speechbrain/run_wav2vec2_commonvoice.sh b/speechbrain/run_wav2vec2_commonvoice.sh
@@ -7,19 +7,19 @@ SOURCE="speechbrain/asr-wav2vec2-commonvoice-en"
 python run_eval.py \
 	--source=$SOURCE \
     --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="clean" \
-	--split="test" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.clean" \
 	--device=0 \
 	--batch_size=16 \
 	--max_eval_samples=-1
 
 python run_eval.py \
 	--source=$SOURCE \
     --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="other" \
-	--split="test" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.other" \
 	--device=0 \
 	--batch_size=16 \
 	--max_eval_samples=-1
diff --git a/speechbrain/run_wav2vec2_librispeech.sh b/speechbrain/run_wav2vec2_librispeech.sh
@@ -3,26 +3,87 @@
 export PYTHONPATH="..":$PYTHONPATH
 
 SOURCE="speechbrain/asr-wav2vec2-librispeech"
+BATCH_SIZE=32
 
 python run_eval.py \
-	--source=$SOURCE \
-    --speechbrain_pretrained_class_name="EncoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="clean" \
-	--split="test" \
-	--device=0 \
-	--batch_size=32 \
-	--max_eval_samples=-1
-
-python run_eval.py \
-	--source=$SOURCE \
-    --speechbrain_pretrained_class_name="EncoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="other" \
-	--split="test" \
-	--device=0 \
-	--batch_size=32 \
-	--max_eval_samples=-1
+  --source=${SOURCE} \
+  --speechbrain_pretrained_class_name="EncoderASR" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="ami" \
+  --split="test" \
+  --device=0 \
+  --batch_size=${BATCH_SIZE} \
+  --max_eval_samples=-1
+
+python run_eval.py \
+  --source=${SOURCE} \
+  --speechbrain_pretrained_class_name="EncoderASR" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="earnings22" \
+  --split="test" \
+  --device=0 \
+  --batch_size=${BATCH_SIZE} \
+  --max_eval_samples=-1
+
+python run_eval.py \
+  --source=${SOURCE} \
+  --speechbrain_pretrained_class_name="EncoderASR" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="gigaspeech" \
+  --split="test" \
+  --device=0 \
+  --batch_size=${BATCH_SIZE} \
+  --max_eval_samples=-1
+
+python run_eval.py \
+  --source=${SOURCE} \
+  --speechbrain_pretrained_class_name="EncoderASR" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.clean" \
+  --device=0 \
+  --batch_size=${BATCH_SIZE} \
+  --max_eval_samples=-1
+
+python run_eval.py \
+  --source=${SOURCE} \
+  --speechbrain_pretrained_class_name="EncoderASR" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.other" \
+  --device=0 \
+  --batch_size=${BATCH_SIZE} \
+  --max_eval_samples=-1
+
+python run_eval.py \
+  --source=${SOURCE} \
+  --speechbrain_pretrained_class_name="EncoderASR" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="spgispeech" \
+  --split="test" \
+  --device=0 \
+  --batch_size=${BATCH_SIZE} \
+  --max_eval_samples=-1
+
+python run_eval.py \
+  --source=${SOURCE} \
+  --speechbrain_pretrained_class_name="EncoderASR" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="tedlium" \
+  --split="test" \
+  --device=0 \
+  --batch_size=${BATCH_SIZE} \
+  --max_eval_samples=-1
+
+python run_eval.py \
+  --source=${SOURCE} \
+  --speechbrain_pretrained_class_name="EncoderASR" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="voxpopuli" \
+  --split="test" \
+  --device=0 \
+  --batch_size=${BATCH_SIZE} \
+  --max_eval_samples=-1
 
 # Evaluate results
 RUNDIR=`pwd` && \