Fix benchmark_multimodal (microsoft#1714)

jiafatom · web-flow · commit 101f2086cce1 · 2025-08-30T20:03:46.000Z
(1) When I run `python benchmark_multimodal.py -i
/sunghcho_data/onnx_models/whisper-tiny-en/cuda/cuda-fp16/ -au
/home/jiafa/accuracy/open_asr_leaderboard/whisper/data/20090202-0900-PLENARY-9-en_20090202-17\:20\:18_2.wav
-m 448`, the code ` inputs = processor(prompt, images=image,
audios=audio)` has core dump because `strings.size()==0` for `auto shape
= std::array&lt;int64_t, 2&gt;{static_cast&lt;int64_t&gt;(strings.size()),
static_cast&lt;int64_t&gt;(encoded.size() / strings.size())};` in `model.cpp`.
This is because ` WhisperProcessor::Process` only goes through
`EncodeBatch` whereas `payload.prompts={}` when we set up a single audio
there. So for single audio case, we capsulate into `prompts` and then
process.
(2) The code refactoring causes `params.set_inputs(inputs)` no longer
works.
diff --git a/benchmark/python/benchmark_multimodal.py b/benchmark/python/benchmark_multimodal.py
@@ -157,18 +157,19 @@ def run_benchmark(args, model, processor, image, audio, generation_length, max_l
         main_prompt = "What is the meaning of life?"
         prompt = f'{user_prompt}{main_prompt}{prompt_suffix}{assistant_prompt}'        
 
-    inputs = processor(prompt, images=image, audios=audio)
-    prompt_length = inputs['input_ids'].shape[1]
+    prompts = [prompt]
+    inputs = processor(prompts, images=image, audios=audio)
+    prompt_length = inputs['input_ids'].shape()[1]
     if args.verbose: print(f"Prompt used: {prompt}")
 
     params = og.GeneratorParams(model)
-    params.set_inputs(inputs)
     do_sample = args.top_k > 1 or (args.top_p != 1.0 and args.top_p > 0.0)
     params.set_search_options(do_sample=do_sample, top_k=args.top_k, top_p=args.top_p, temperature=temperature, max_length=max_length, min_length=max_length)
 
     if args.verbose: print("Processed inputs, running warmup runs...")
     for _ in tqdm(range(args.warmup)):
         generator = og.Generator(model, params)
+        generator.set_inputs(inputs)
         i = 1
         while not generator.is_done() and i < generation_length:
             generator.generate_next_token()
@@ -188,18 +189,18 @@ def run_benchmark(args, model, processor, image, audio, generation_length, max_l
 
         # Measure prompt and image processing
         process_start_time = time.perf_counter()
-        inputs = processor(prompt, images=image, audios=audio)
+        inputs = processor(prompts, images=image, audios=audio)
         process_end_time = time.perf_counter()
         process_times.append(process_end_time - process_start_time)
 
         # Prepare run
         params = og.GeneratorParams(model)
-        params.set_inputs(inputs)
         params.set_search_options(do_sample=do_sample, top_k=args.top_k, top_p=args.top_p, temperature=temperature, max_length=max_length, min_length=max_length)
 
         # Measure prompt processing
         prompt_start_time = time.perf_counter()
         generator = og.Generator(model, params)
+        generator.set_inputs(inputs)
         prompt_end_time = time.perf_counter()
         prompt_times.append(prompt_end_time - prompt_start_time)