huggingface
diff --git a/‎ctranslate2/calc_rtf.py‎
Lines changed: 0 additions & 62 deletions b/‎ctranslate2/calc_rtf.py‎
Lines changed: 0 additions & 62 deletions
diff --git a/‎ctranslate2/run_eval.py‎
Lines changed: 60 additions & 42 deletions b/‎ctranslate2/run_eval.py‎
Lines changed: 60 additions & 42 deletions
diff --git a/‎ctranslate2/run_whisper.sh‎
Lines changed: 0 additions & 9 deletions b/‎ctranslate2/run_whisper.sh‎
Lines changed: 0 additions & 9 deletions
diff --git a/‎speechbrain/run_conformer.sh‎
Lines changed: 16 additions & 16 deletions b/‎speechbrain/run_conformer.sh‎
Lines changed: 16 additions & 16 deletions
diff --git a/‎speechbrain/run_conformersmall.sh‎
Lines changed: 16 additions & 16 deletions b/‎speechbrain/run_conformersmall.sh‎
Lines changed: 16 additions & 16 deletions
@@ -1,6 +1,7 @@
 """Run evaluation for ctranslate2 whisper models."""""
 import argparse
 import os
+import time
 
 import evaluate
 from faster_whisper import WhisperModel
@@ -11,20 +12,6 @@
 wer_metric = evaluate.load("wer")
 
 
-def dataset_iterator(dataset) -> dict:
-    """
-    Iterate over the dataset and yield a dictionary with the audio and reference text.
-
-    Args:
-        dataset: dataset to iterate over
-
-    Returns:
-        dictionary: {"audio": audio, "reference": reference}
-    """
-    for item in dataset:
-        yield {**item["audio"], "reference": item["norm_text"]}
-
-
 def main(args) -> None:
     """Main function to run evaluation on a dataset."""
     asr_model = WhisperModel(
@@ -34,38 +21,69 @@ def main(args) -> None:
         device_index=args.device
     )
 
-    dataset = data_utils.load_data(args)
+    def benchmark(batch):
+        start_time = time.time()
+        segments, _ = asr_model.transcribe(batch["audio"]["array"], language="en")
+        outputs = [segment._asdict() for segment in segments]
+        batch["transcription_time_s"] = time.time() - start_time
+        batch["predictions"] = data_utils.normalizer("".join([segment["text"] for segment in outputs])).strip()
+        batch["references"] = batch["norm_text"]
+        return batch
 
-    if args.max_eval_samples is not None and args.max_eval_samples > 0:
-        print(f"Subsampling dataset to first {args.max_eval_samples} samples !")
-        dataset = dataset.take(args.max_eval_samples)
+    if args.warmup_steps is not None:
+        dataset = data_utils.load_data(args)
+        dataset = data_utils.prepare_data(dataset)
 
-    dataset = data_utils.prepare_data(dataset)
+        if args.streaming:
+            warmup_dataset = dataset.take(args.warmup_steps)
+        else:
+            warmup_dataset = dataset.select(range(min(args.warmup_steps, len(dataset))))
+        warmup_dataset = iter(warmup_dataset.map(benchmark, remove_columns=["audio"]))
 
-    predictions = []
-    references = []
+        for _ in tqdm(warmup_dataset, desc="Warming up..."):
+            continue
 
-    # Run inference
-    for batch in tqdm(dataset_iterator(dataset), desc=f"Evaluating {args.model_id}"):
-        segments, _ = asr_model.transcribe(batch["array"], language="en")
-        outputs = [segment._asdict() for segment in segments]
-        transcription = data_utils.normalizer(
-            "".join([segment["text"] for segment in outputs])
-        ).strip()
+    dataset = data_utils.load_data(args)
+    if args.max_eval_samples is not None and args.max_eval_samples > 0:
+        print(f"Subsampling dataset to first {args.max_eval_samples} samples!")
+        if args.streaming:
+            dataset = dataset.take(args.max_eval_samples)
+        else:
+            dataset = dataset.select(range(min(args.max_eval_samples, len(dataset))))
+    dataset = data_utils.prepare_data(dataset)
+
+    dataset = dataset.map(benchmark, remove_columns=["audio"])
 
-        predictions.append(transcription)
-        references.append(batch["reference"])
+    all_results = {
+        "audio_length_s": [],
+        "transcription_time_s": [],
+        "predictions": [],
+        "references": [],
+    }
+    result_iter = iter(dataset)
+    for result in tqdm(result_iter, desc="Samples..."):
+        for key in all_results:
+            all_results[key].append(result[key])
 
-    # Write manifest results
+    # Write manifest results (WER and RTFX)
     manifest_path = data_utils.write_manifest(
-        references, predictions, args.model_id, args.dataset_path, args.dataset, args.split
+        all_results["references"],
+        all_results["predictions"],
+        args.model_id,
+        args.dataset_path,
+        args.dataset,
+        args.split,
+        audio_length=all_results["audio_length_s"],
+        transcription_time=all_results["transcription_time_s"],
     )
     print("Results saved at path:", os.path.abspath(manifest_path))
 
-    wer = wer_metric.compute(references=references, predictions=predictions)
+    wer = wer_metric.compute(
+        references=all_results["references"], predictions=all_results["predictions"]
+    )
     wer = round(100 * wer, 2)
-
-    print("WER:", wer, "%")
+    rtfx = round(sum(all_results["audio_length_s"]) / sum(all_results["transcription_time_s"]), 2)
+    print("WER:", wer, "%", "RTFx:", rtfx)
 
 
 if __name__ == "__main__":
@@ -75,7 +93,7 @@ def main(args) -> None:
         "--model_id",
         type=str,
         required=True,
-        help="Model identifier. Should be loadable with 🤗 Transformers",
+        help="Model identifier. Should be loadable with faster-whisper",
     )
     parser.add_argument(
         '--dataset_path', type=str, default='esb/datasets', help='Dataset path. By default, it is `esb/datasets`'
@@ -99,12 +117,6 @@ def main(args) -> None:
         default=-1,
         help="The device to run the pipeline on. -1 for CPU (default), 0 for the first GPU and so on.",
     )
-    parser.add_argument(
-        "--batch_size",
-        type=int,
-        default=16,
-        help="Number of samples to go through each streamed batch.",
-    )
     parser.add_argument(
         "--max_eval_samples",
         type=int,
@@ -117,6 +129,12 @@ def main(args) -> None:
         action="store_false",
         help="Choose whether you'd like to download the entire dataset or stream it during the evaluation.",
     )
+    parser.add_argument(
+        "--warmup_steps",
+        type=int,
+        default=5,
+        help="Number of warm-up steps to run before launching the timed runs.",
+    )
     args = parser.parse_args()
     parser.set_defaults(streaming=False)
 
 
@@ -3,7 +3,6 @@
 export PYTHONPATH="..":$PYTHONPATH
 
 MODEL_IDs=("tiny.en" "small.en" "base.en" "medium.en" "large-v1" "large-v2" "large-v3")
-BATCH_SIZE=1
 DEVICE_INDEX=0
 
 num_models=${#MODEL_IDs[@]}
@@ -18,7 +17,6 @@ do
         --dataset="ami" \
         --split="test" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     python run_eval.py \
@@ -27,7 +25,6 @@ do
         --dataset="earnings22" \
         --split="test" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     python run_eval.py \
@@ -36,7 +33,6 @@ do
         --dataset="gigaspeech" \
         --split="test" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     python run_eval.py \
@@ -45,7 +41,6 @@ do
         --dataset="librispeech" \
         --split="test.clean" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     python run_eval.py \
@@ -54,7 +49,6 @@ do
         --dataset="librispeech" \
         --split="test.other" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     python run_eval.py \
@@ -63,7 +57,6 @@ do
         --dataset="spgispeech" \
         --split="test" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     python run_eval.py \
@@ -72,7 +65,6 @@ do
         --dataset="tedlium" \
         --split="test" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     python run_eval.py \
@@ -81,7 +73,6 @@ do
         --dataset="voxpopuli" \
         --split="test" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     # Evaluate results
 
@@ -5,24 +5,24 @@ export PYTHONPATH="..":$PYTHONPATH
 SOURCE="speechbrain/asr-conformer-transformerlm-librispeech"
 
 python run_eval.py \
-	--source=$SOURCE \
-    --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="clean" \
-	--split="test" \
-	--device=0 \
-	--batch_size=4 \
-	--max_eval_samples=-1
+  --source=$SOURCE \
+  --speechbrain_pretrained_class_name="EncoderDecoderASR" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.clean" \
+  --device=0 \
+  --batch_size=4 \
+  --max_eval_samples=-1
 
 python run_eval.py \
-	--source=$SOURCE \
-    --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="other" \
-	--split="test" \
-	--device=0 \
-	--batch_size=4 \
-	--max_eval_samples=-1
+  --source=$SOURCE \
+  --speechbrain_pretrained_class_name="EncoderDecoderASR" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.other" \
+  --device=0 \
+  --batch_size=4 \
+  --max_eval_samples=-1
 
 # Evaluate results
 RUNDIR=`pwd` && \
 
@@ -5,24 +5,24 @@ export PYTHONPATH="..":$PYTHONPATH
 SOURCE="speechbrain/asr-conformersmall-transformerlm-librispeech"
 
 python run_eval.py \
-	--source=$SOURCE \
-    --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="clean" \
-	--split="test" \
-	--device=0 \
-	--batch_size=4 \
-	--max_eval_samples=-1
+  --source=$SOURCE \
+  --speechbrain_pretrained_class_name="EncoderDecoderASR" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.clean" \
+  --device=0 \
+  --batch_size=4 \
+  --max_eval_samples=-1
 
 python run_eval.py \
-	--source=$SOURCE \
-    --speechbrain_pretrained_class_name="EncoderDecoderASR" \
-	--dataset_path="librispeech_asr" \
-	--dataset="other" \
-	--split="test" \
-	--device=0 \
-	--batch_size=4 \
-	--max_eval_samples=-1
+  --source=$SOURCE \
+  --speechbrain_pretrained_class_name="EncoderDecoderASR" \
+  --dataset_path="hf-audio/esb-datasets-test-only-sorted" \
+  --dataset="librispeech" \
+  --split="test.other" \
+  --device=0 \
+  --batch_size=4 \
+  --max_eval_samples=-1
 
 # Evaluate results
 RUNDIR=`pwd` && \