add BUCKET_PADDING_RATIO to set padding ratio limit (#2029)

yangulei · web-flow · commit 7408e3a0cdf5 · 2025-10-13T16:33:36.000+08:00
Works with HabanaAI/vllm-hpu-extension#379
diff --git a/scripts/quickstart/set_worker_node.sh b/scripts/quickstart/set_worker_node.sh
@@ -65,10 +65,10 @@ export VLLM_GRAPH_PROMPT_RATIO=0
 
 #export VLLM_SKIP_WARMUP=true
 
-unset VLLM_PROMPT_BS_BUCKET_MIN VLLM_PROMPT_BS_BUCKET_STEP VLLM_PROMPT_BS_BUCKET_MAX
-unset VLLM_PROMPT_SEQ_BUCKET_MIN VLLM_PROMPT_SEQ_BUCKET_STEP VLLM_PROMPT_SEQ_BUCKET_MAX
-unset VLLM_DECODE_BS_BUCKET_MIN VLLM_DECODE_BS_BUCKET_STEP VLLM_DECODE_BS_BUCKET_MAX
-unset VLLM_DECODE_BLOCK_BUCKET_MIN VLLM_DECODE_BLOCK_BUCKET_STEP VLLM_DECODE_BLOCK_BUCKET_MAX
+unset VLLM_PROMPT_BS_BUCKET_MIN VLLM_PROMPT_BS_BUCKET_STEP VLLM_PROMPT_BS_BUCKET_MAX VLLM_PROMPT_BS_BUCKET_LIMIT
+unset VLLM_PROMPT_SEQ_BUCKET_MIN VLLM_PROMPT_SEQ_BUCKET_STEP VLLM_PROMPT_SEQ_BUCKET_MAX VLLM_PROMPT_SEQ_BUCKET_LIMIT
+unset VLLM_DECODE_BS_BUCKET_MIN VLLM_DECODE_BS_BUCKET_STEP VLLM_DECODE_BS_BUCKET_MAX VLLM_DECODE_BS_BUCKET_LIMIT
+unset VLLM_DECODE_BLOCK_BUCKET_MIN VLLM_DECODE_BLOCK_BUCKET_STEP VLLM_DECODE_BLOCK_BUCKET_MAX VLLM_DECODE_BLOCK_BUCKET_LIMIT
 
 set_bucketing
 
diff --git a/scripts/quickstart/start_vllm.sh b/scripts/quickstart/start_vllm.sh
@@ -141,36 +141,40 @@ input_max=$max_model_len
 output_max=$max_model_len
 
 
-unset VLLM_PROMPT_BS_BUCKET_MIN VLLM_PROMPT_BS_BUCKET_STEP VLLM_PROMPT_BS_BUCKET_MAX
-unset VLLM_PROMPT_SEQ_BUCKET_MIN VLLM_PROMPT_SEQ_BUCKET_STEP VLLM_PROMPT_SEQ_BUCKET_MAX
-unset VLLM_DECODE_BS_BUCKET_MIN VLLM_DECODE_BS_BUCKET_STEP VLLM_DECODE_BS_BUCKET_MAX
-unset VLLM_DECODE_BLOCK_BUCKET_MIN VLLM_DECODE_BLOCK_BUCKET_STEP VLLM_DECODE_BLOCK_BUCKET_MAX
+unset VLLM_PROMPT_BS_BUCKET_MIN VLLM_PROMPT_BS_BUCKET_STEP VLLM_PROMPT_BS_BUCKET_MAX VLLM_PROMPT_BS_BUCKET_LIMIT
+unset VLLM_PROMPT_SEQ_BUCKET_MIN VLLM_PROMPT_SEQ_BUCKET_STEP VLLM_PROMPT_SEQ_BUCKET_MAX VLLM_PROMPT_SEQ_BUCKET_LIMIT
+unset VLLM_DECODE_BS_BUCKET_MIN VLLM_DECODE_BS_BUCKET_STEP VLLM_DECODE_BS_BUCKET_MAX VLLM_DECODE_BS_BUCKET_LIMIT
+unset VLLM_DECODE_BLOCK_BUCKET_MIN VLLM_DECODE_BLOCK_BUCKET_STEP VLLM_DECODE_BLOCK_BUCKET_MAX VLLM_DECODE_BLOCK_BUCKET_LIMIT
 
 #export VLLM_SKIP_WARMUP=True
 
 
 
 # !!!!!!!!!!!!!!!!!!!! set bucketing !!!!!!!!!!!!!
+BUCKET_PADDING_RATIO=${BUCKET_PADDING_RATIO:-"0.25"}  # tune this to balance warmup time and runtime performance
 prompt_bs_min=1
 prompt_bs_step=$(( $max_num_seqs > 32 ? 32 : $max_num_seqs ))
 prompt_bs_max=$(( $max_num_seqs > 64 ? 64 : $max_num_seqs ))
 export VLLM_PROMPT_BS_BUCKET_MIN=${VLLM_PROMPT_BS_BUCKET_MIN:-$prompt_bs_min}
 export VLLM_PROMPT_BS_BUCKET_STEP=${VLLM_PROMPT_BS_BUCKET_STEP:-$prompt_bs_step}
 export VLLM_PROMPT_BS_BUCKET_MAX=${VLLM_PROMPT_BS_BUCKET_MAX:-$prompt_bs_max}
+export VLLM_PROMPT_BS_BUCKET_LIMIT=${BUCKET_PADDING_RATIO}
 
 prompt_seq_step=128
 prompt_seq_min=128
 prompt_seq_max=$max_num_batched_tokens
 export VLLM_PROMPT_SEQ_BUCKET_MIN=${VLLM_PROMPT_SEQ_BUCKET_MIN:-$prompt_seq_min}
 export VLLM_PROMPT_SEQ_BUCKET_STEP=${VLLM_PROMPT_SEQ_BUCKET_STEP:-$prompt_seq_step}
 export VLLM_PROMPT_SEQ_BUCKET_MAX=${VLLM_PROMPT_SEQ_BUCKET_MAX:-$prompt_seq_max}
+export VLLM_PROMPT_SEQ_BUCKET_LIMIT=${BUCKET_PADDING_RATIO}
 
 decode_bs_min=1
 decode_bs_step=$(( $max_num_seqs > $default_decode_bs_step ? $default_decode_bs_step : $max_num_seqs ))
 decode_bs_max=$max_num_seqs
 export VLLM_DECODE_BS_BUCKET_MIN=${VLLM_DECODE_BS_BUCKET_MIN:-$decode_bs_min}
 export VLLM_DECODE_BS_BUCKET_STEP=${VLLM_DECODE_BS_BUCKET_STEP:-$decode_bs_step}
 export VLLM_DECODE_BS_BUCKET_MAX=${VLLM_DECODE_BS_BUCKET_MAX:-$decode_bs_max}
+export VLLM_DECODE_BS_BUCKET_LIMIT=${BUCKET_PADDING_RATIO}
 
 decode_block_min=128
 decode_block_step=128
@@ -179,6 +183,7 @@ decode_block_max=$(( ((max_num_seqs * max_model_len / block_size) > 128) ? (max_
 export VLLM_DECODE_BLOCK_BUCKET_MIN=${VLLM_DECODE_BLOCK_BUCKET_MIN:-$decode_block_min}
 export VLLM_DECODE_BLOCK_BUCKET_STEP=${VLLM_DECODE_BLOCK_BUCKET_STEP:-$decode_block_step}
 export VLLM_DECODE_BLOCK_BUCKET_MAX=${VLLM_DECODE_BLOCK_BUCKET_MAX:-$decode_block_max}
+export VLLM_DECODE_BLOCK_BUCKET_LIMIT=${BUCKET_PADDING_RATIO}
 
 
 echo " environments are reseted "
diff --git a/scripts/quickstart/utils.sh b/scripts/quickstart/utils.sh
@@ -47,17 +47,19 @@ set_bucketing(){
     input_max=${input_max:-1024}
     output_max=${output_max:-2048}
     block_size=${block_size:-128}
+    BUCKET_PADDING_RATIO=${BUCKET_PADDING_RATIO:-"0.25"}  # tune this to balance warmup time and runtime performance
 
     prompt_bs_step=1
     prompt_bs_min=1
     prompt_bs_max=$(( $max_num_batched_tokens / $input_min ))
     # prompt_bs_max = min(prompt_bs_max, max_num_seqs)
     prompt_bs_max=$(( $prompt_bs_max > $max_num_seqs ? $max_num_seqs : $prompt_bs_max ))
     # prompt_bs_max = CEILING.MATH(prompt_bs_max, prompt_bs_step)
-    prompt_bs_max=$(( ($prompt_bs_max + $prompt_bs_step - 1) / $prompt_bs_step * $prompt_bs_step ))    
+    prompt_bs_max=$(( ($prompt_bs_max + $prompt_bs_step - 1) / $prompt_bs_step * $prompt_bs_step ))
     export VLLM_PROMPT_BS_BUCKET_MIN=${VLLM_PROMPT_BS_BUCKET_MIN:-$prompt_bs_min}
     export VLLM_PROMPT_BS_BUCKET_STEP=${VLLM_PROMPT_BS_BUCKET_STEP:-$prompt_bs_step}
     export VLLM_PROMPT_BS_BUCKET_MAX=${VLLM_PROMPT_BS_BUCKET_MAX:-$prompt_bs_max}
+    export VLLM_PROMPT_BS_BUCKET_LIMIT=${BUCKET_PADDING_RATIO}
 
     prompt_seq_step=128
     # prompt_seq_min = CEILING.MATH(input_min, prompt_seq_step)
@@ -67,6 +69,7 @@ set_bucketing(){
     export VLLM_PROMPT_SEQ_BUCKET_MIN=${VLLM_PROMPT_SEQ_BUCKET_MIN:-$prompt_seq_min}
     export VLLM_PROMPT_SEQ_BUCKET_STEP=${VLLM_PROMPT_SEQ_BUCKET_STEP:-$prompt_seq_step}
     export VLLM_PROMPT_SEQ_BUCKET_MAX=${VLLM_PROMPT_SEQ_BUCKET_MAX:-$prompt_seq_max}
+    export VLLM_PROMPT_SEQ_BUCKET_LIMIT=${BUCKET_PADDING_RATIO}
 
     # decode_bs_step = ROUNDUP(max_num_seqs / 16, 0)
     decode_bs_step=$(( ($max_num_seqs + 15) / 16 ))
@@ -77,6 +80,7 @@ set_bucketing(){
     export VLLM_DECODE_BS_BUCKET_MIN=${VLLM_DECODE_BS_BUCKET_MIN:-$decode_bs_min}
     export VLLM_DECODE_BS_BUCKET_STEP=${VLLM_DECODE_BS_BUCKET_STEP:-$decode_bs_step}
     export VLLM_DECODE_BS_BUCKET_MAX=${VLLM_DECODE_BS_BUCKET_MAX:-$decode_bs_max}
+    export VLLM_DECODE_BS_BUCKET_LIMIT=${BUCKET_PADDING_RATIO}
 
     decode_block_step=$decode_bs_max
     # decode_block_min = ROUNDUP(input_min / block_size, 0)
@@ -88,6 +92,7 @@ set_bucketing(){
     export VLLM_DECODE_BLOCK_BUCKET_MIN=${VLLM_DECODE_BLOCK_BUCKET_MIN:-$decode_block_min}
     export VLLM_DECODE_BLOCK_BUCKET_STEP=${VLLM_DECODE_BLOCK_BUCKET_STEP:-$decode_block_step}
     export VLLM_DECODE_BLOCK_BUCKET_MAX=${VLLM_DECODE_BLOCK_BUCKET_MAX:-$decode_block_max}
+    export VLLM_DECODE_BLOCK_BUCKET_LIMIT=${BUCKET_PADDING_RATIO}
 }
 
 # clean existing INC scale