finish faster whisper

sanchit-gandhi · sanchit-gandhi · commit 347784dff355 · 2024-08-07T13:35:28.000+01:00
diff --git a/ctranslate2/run_eval.py b/ctranslate2/run_eval.py
@@ -23,7 +23,7 @@ def main(args) -> None:
 
     def benchmark(batch):
         start_time = time.time()
-        segments, _ = asr_model.transcribe(batch["array"], language="en")
+        segments, _ = asr_model.transcribe(batch["audio"]["array"], language="en")
         outputs = [segment._asdict() for segment in segments]
         batch["transcription_time_s"] = time.time() - start_time
         batch["predictions"] = data_utils.normalizer("".join([segment["text"] for segment in outputs])).strip()
@@ -117,12 +117,6 @@ def benchmark(batch):
         default=-1,
         help="The device to run the pipeline on. -1 for CPU (default), 0 for the first GPU and so on.",
     )
-    parser.add_argument(
-        "--batch_size",
-        type=int,
-        default=16,
-        help="Number of samples to go through each streamed batch.",
-    )
     parser.add_argument(
         "--max_eval_samples",
         type=int,
diff --git a/ctranslate2/run_whisper.sh b/ctranslate2/run_whisper.sh
@@ -3,7 +3,6 @@
 export PYTHONPATH="..":$PYTHONPATH
 
 MODEL_IDs=("tiny.en" "small.en" "base.en" "medium.en" "large-v1" "large-v2" "large-v3")
-BATCH_SIZE=1
 DEVICE_INDEX=0
 
 num_models=${#MODEL_IDs[@]}
@@ -18,7 +17,6 @@ do
         --dataset="ami" \
         --split="test" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     python run_eval.py \
@@ -27,7 +25,6 @@ do
         --dataset="earnings22" \
         --split="test" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     python run_eval.py \
@@ -36,7 +33,6 @@ do
         --dataset="gigaspeech" \
         --split="test" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     python run_eval.py \
@@ -45,7 +41,6 @@ do
         --dataset="librispeech" \
         --split="test.clean" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     python run_eval.py \
@@ -54,7 +49,6 @@ do
         --dataset="librispeech" \
         --split="test.other" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     python run_eval.py \
@@ -63,7 +57,6 @@ do
         --dataset="spgispeech" \
         --split="test" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     python run_eval.py \
@@ -72,7 +65,6 @@ do
         --dataset="tedlium" \
         --split="test" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     python run_eval.py \
@@ -81,7 +73,6 @@ do
         --dataset="voxpopuli" \
         --split="test" \
         --device=${DEVICE_INDEX} \
-        --batch_size=${BATCH_SIZE} \
         --max_eval_samples=-1
 
     # Evaluate results