@@ -4,6 +4,7 @@ export PYTHONPATH="..":$PYTHONPATH
44
55MODEL_IDs=(" microsoft/Phi-4-multimodal-instruct" )
66BATCH_SIZE=32
7+ NUM_BEAMS=1
78MAX_NEW_TOKENS=512
89
910num_models=${# MODEL_IDs[@]}
2021 --split=" test" \
2122 --device=0 \
2223 --batch_size=${BATCH_SIZE} \
24+ --num_beams=${NUM_BEAMS} \
2325 --max_eval_samples=-1 \
2426 --max_new_tokens=${MAX_NEW_TOKENS} \
2527 --user_prompt=" ${default_user_prompt} "
3133 --split=" test" \
3234 --device=0 \
3335 --batch_size=${BATCH_SIZE} \
36+ --num_beams=${NUM_BEAMS} \
3437 --max_eval_samples=-1 \
3538 --max_new_tokens=${MAX_NEW_TOKENS} \
3639 --user_prompt=" ${default_user_prompt} "
4245 --split=" test" \
4346 --device=0 \
4447 --batch_size=${BATCH_SIZE} \
48+ --num_beams=${NUM_BEAMS} \
4549 --max_eval_samples=-1 \
4650 --max_new_tokens=${MAX_NEW_TOKENS} \
4751 --user_prompt=" Transcribe the audio clip to English text."
5357 --split=" test" \
5458 --device=0 \
5559 --batch_size=${BATCH_SIZE} \
60+ --num_beams=${NUM_BEAMS} \
5661 --max_eval_samples=-1 \
5762 --max_new_tokens=${MAX_NEW_TOKENS} \
5863 --user_prompt=" ${default_user_prompt} "
6469 --split=" test.clean" \
6570 --device=0 \
6671 --batch_size=${BATCH_SIZE} \
72+ --num_beams=${NUM_BEAMS} \
6773 --max_eval_samples=-1 \
6874 --max_new_tokens=${MAX_NEW_TOKENS} \
6975 --user_prompt=" ${default_user_prompt} "
7581 --split=" test.other" \
7682 --device=0 \
7783 --batch_size=${BATCH_SIZE} \
84+ --num_beams=${NUM_BEAMS} \
7885 --max_eval_samples=-1 \
7986 --max_new_tokens=${MAX_NEW_TOKENS} \
8087 --user_prompt=" ${default_user_prompt} "
8693 --split=" test" \
8794 --device=0 \
8895 --batch_size=${BATCH_SIZE} \
96+ --num_beams=${NUM_BEAMS} \
8997 --max_eval_samples=-1 \
9098 --max_new_tokens=${MAX_NEW_TOKENS} \
9199 --user_prompt=" ${default_user_prompt} "
97105 --split=" test" \
98106 --device=0 \
99107 --batch_size=${BATCH_SIZE} \
108+ --num_beams=${NUM_BEAMS} \
100109 --max_eval_samples=-1 \
101110 --max_new_tokens=${MAX_NEW_TOKENS} \
102111 --user_prompt=" ${default_user_prompt} "
0 commit comments