HabanaAI
diff --git a/‎pd_xpyd/1p_start_prefill.sh‎
Lines changed: 37 additions & 42 deletions b/‎pd_xpyd/1p_start_prefill.sh‎
Lines changed: 37 additions & 42 deletions
diff --git a/‎pd_xpyd/2d_start_decode_head.sh‎
Lines changed: 4 additions & 0 deletions b/‎pd_xpyd/2d_start_decode_head.sh‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎pd_xpyd/2d_start_decode_node.sh‎
Lines changed: 4 additions & 0 deletions b/‎pd_xpyd/2d_start_decode_node.sh‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎pd_xpyd/2p_start_prefill_head.sh‎
Lines changed: 4 additions & 1 deletion b/‎pd_xpyd/2p_start_prefill_head.sh‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎pd_xpyd/2p_start_prefill_node.sh‎
Lines changed: 4 additions & 0 deletions b/‎pd_xpyd/2p_start_prefill_node.sh‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎pd_xpyd/dp_d_env.sh‎
Lines changed: 13 additions & 8 deletions b/‎pd_xpyd/dp_d_env.sh‎
Lines changed: 13 additions & 8 deletions
diff --git a/‎pd_xpyd/dp_p_env.sh‎
Lines changed: 13 additions & 7 deletions b/‎pd_xpyd/dp_p_env.sh‎
Lines changed: 13 additions & 7 deletions
diff --git a/‎pd_xpyd/dp_start_decode.sh‎
Lines changed: 20 additions & 9 deletions b/‎pd_xpyd/dp_start_decode.sh‎
Lines changed: 20 additions & 9 deletions
@@ -1,40 +1,18 @@
 #!/bin/bash
-
 BASH_DIR=$(dirname "${BASH_SOURCE[0]}")
 
-BENCHMARK_MODE=0
-
-if [ "$2" == "benchmark" ]; then
-    BENCHMARK_MODE=1
-    sed -i 's/export VLLM_USE_ASYNC_TRANSFER_IN_PD=.*/export VLLM_USE_ASYNC_TRANSFER_IN_PD=0/' $BASH_DIR/pd_env.sh
-    echo " Benchmark mode enabled"
-else
-    sed -i 's/export VLLM_USE_ASYNC_TRANSFER_IN_PD=.*/export VLLM_USE_ASYNC_TRANSFER_IN_PD=1/' $BASH_DIR/pd_env.sh
-    echo " Normal mode enabled"
-fi
-
-if [ -z "$1" ] || [ "$1" == "g10" ] || [ "$1" == "pcie4" ]; then
-    if [ "$BENCHMARK_MODE" == "1" ]; then
-	source "$BASH_DIR"/start_etcd_mooncake_master.sh benchmark
- 	echo "source "$BASH_DIR"/start_etcd_mooncake_master.sh benchmark"
-    else
-	source "$BASH_DIR"/start_etcd_mooncake_master.sh
-	echo "source "$BASH_DIR"/start_etcd_mooncake_master.sh"
-    fi
+# for backward compatible. following nodes are started as mooncake master node
+if [ "$2" == "master" ] || [ -z "$1" ] || [ "$1" == "g10" ] || [ "$1" == "pcie4" ]; then
+    source "$BASH_DIR"/start_etcd_mooncake_master.sh
+    echo "source "$BASH_DIR"/start_etcd_mooncake_master.sh"
 fi
 
-
-export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
 export MOONCAKE_CONFIG_PATH="$BASH_DIR"/mooncake_${1:-g10}.json
 
 echo "Using Mooncake config: $MOONCAKE_CONFIG_PATH"
 
 source "$BASH_DIR"/dp_p_env.sh
 
-timestamp=$(date +"%Y%m%d_%H%M%S")
-log_dir="xpyd_logs"
-mkdir -p "$log_dir"
-log_file="$log_dir/prefill_${timestamp}.log"
 
 if [ "$INC_FP8" -eq 1 ]; then
   kv_cache_dtype_arg="--kv-cache-dtype fp8_inc"
@@ -44,19 +22,36 @@ else
   echo "<prefill>it's bf16 kv cache mode"
 fi
 
-python3 -m vllm.entrypoints.openai.api_server \
-  --model "$model_path" \
-  --port 8100 \
-  --max-model-len "$model_len" \
-  --gpu-memory-utilization "$VLLM_GPU_MEMORY_UTILIZATION" \
-  -tp 8 \
-  --max-num-seqs "$max_num_seqs" \
-  --trust-remote-code \
-  --disable-async-output-proc \
-  --disable-log-requests \
-  --max-num-batched-tokens "$max_num_batched_tokens" \
-  --use-padding-aware-scheduling \
-  --use-v2-block-manager \
-  --distributed_executor_backend mp \
-  $kv_cache_dtype_arg \
-  --kv-transfer-config '{"kv_connector":"MooncakeStoreConnector","kv_role":"kv_producer"}' 2>&1 | tee "$log_file"
+# Define the Python command as an array
+CMD=(
+    python3 -m vllm.entrypoints.openai.api_server
+    --model "$model_path"
+    --port 8100
+    --max-model-len "$model_len"
+    --gpu-memory-utilization "$VLLM_GPU_MEMORY_UTILIZATION"
+    -tp 8
+    --max-num-seqs "$max_num_seqs"
+    --trust-remote-code
+    --disable-async-output-proc
+    --disable-log-requests
+    --max-num-batched-tokens "$max_num_batched_tokens"
+    --use-padding-aware-scheduling
+    --use-v2-block-manager
+    --distributed_executor_backend mp
+    $kv_cache_dtype_arg
+    --kv-transfer-config '{"kv_connector":"MooncakeStoreConnector","kv_role":"kv_producer"}'
+)
+
+# Check if XPYD_LOG is set
+if [ -n "$XPYD_LOG" ]; then
+    timestamp=$(date +"%Y%m%d_%H%M%S")
+    log_file="$XPYD_LOG/ProxyServer_${timestamp}.log"
+    echo "Logging to $log_file..."
+
+    # Execute command and log stdout+stderr using tee
+    "${CMD[@]}" 2>&1 | tee "$log_file"
+else
+    echo "XPYD_LOG not set, running without logging..."
+    # Execute command without logging
+    "${CMD[@]}"
+fi
@@ -10,6 +10,10 @@ unset VLLM_USE_V1
 unset VLLM_DP_MASTER_IP
 unset VLLM_DP_MASTER_PORT
 
+ray stop --force
+
+sleep 3s
+
 ray start --head --port=8826
 
 while true; do
 
@@ -10,6 +10,10 @@ unset VLLM_USE_V1
 unset VLLM_DP_MASTER_IP
 unset VLLM_DP_MASTER_PORT
 
+ray stop --force
+
+sleep 3s
+
 ray start --address="${2:-10.239.129.81:8826}"
 
 
@@ -11,8 +11,11 @@ export MOONCAKE_CONFIG_PATH="$BASH_DIR"/mooncake_${1:-g10}.json
 
 source "$BASH_DIR"/dp_p_env.sh
 
-ray start --head --port=6886
+ray stop --force
+
+sleep 3s
 
+ray start --head --port=6886
 
 while true; do
     read -p "Continue? (y): " answer
 
@@ -6,5 +6,9 @@ export MOONCAKE_CONFIG_PATH="$BASH_DIR"/mooncake_${1:-g12}.json
 
 source "$BASH_DIR"/dp_p_env.sh
 
+ray stop --force
+
+sleep 3s
+
 ray start --address="${2:-10.239.129.9:6886}"
 
@@ -3,8 +3,6 @@ BASH_DIR=$(dirname "${BASH_SOURCE[0]}")
 source "$BASH_DIR"/pd_bucket.sh
 source "$BASH_DIR"/pd_env.sh
 
-export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
-
 export VLLM_GPU_MEMORY_UTILIZATION=0.7
 export VLLM_GRAPH_RESERVED_MEM=0.3
 export VLLM_GRAPH_PROMPT_RATIO=0
@@ -20,6 +18,7 @@ input_min=128
 input_max=16384
 output_max=16384
 
+# ***************************************  bucketing ******************************************* #
 unset VLLM_PROMPT_BS_BUCKET_MIN VLLM_PROMPT_BS_BUCKET_STEP VLLM_PROMPT_BS_BUCKET_MAX
 unset VLLM_PROMPT_SEQ_BUCKET_MIN VLLM_PROMPT_SEQ_BUCKET_STEP VLLM_PROMPT_SEQ_BUCKET_MAX
 unset VLLM_DECODE_BS_BUCKET_MIN VLLM_DECODE_BS_BUCKET_STEP VLLM_DECODE_BS_BUCKET_MAX
@@ -35,7 +34,7 @@ export VLLM_PROMPT_SEQ_BUCKET_STEP=128
 export VLLM_PROMPT_SEQ_BUCKET_MAX=1
 
 #export VLLM_DECODE_BLOCK_BUCKET_MIN=2048
-export VLLM_DECODE_BS_BUCKET_STEP=2
+#export VLLM_DECODE_BS_BUCKET_STEP=2
 #export VLLM_DECODE_BLOCK_BUCKET_STEP=2
 
 echo " environments are reseted "
@@ -44,19 +43,25 @@ env | grep VLLM_PROMPT_BS
 env | grep VLLM_PROMPT_SEQ
 env | grep VLLM_DECODE_BS
 env | grep VLLM_DECODE_BLOCK
+# ***************************************  bucketing ends ************************************* #
 
-export VLLM_SKIP_WARMUP=True
-#unset VLLM_SKIP_WARMUP
-#export PT_HPU_RECIPE_CACHE_CONFIG=/workspace/ww33_inc_fp8_d,false,131072
-
+# decode specific settings
 export VLLM_DP_SIZE=2
 export VLLM_USE_V1=0
 export VLLM_DP_MASTER_IP=10.239.129.81
 export VLLM_DP_MASTER_PORT=25940
 export VLLM_EP_SIZE=16
 
-export PT_HPU_MOE_THRESHOLD=64
+# warmup settings
+export VLLM_SKIP_WARMUP=True
+#export PT_HPU_RECIPE_CACHE_CONFIG=/workspace/pd_d_cache,false,131072
+
+# MoE settings
+export VLLM_SUPPORT_MOE_CHUNK="true"
+export PT_HPU_MOE_CHUNK="64, 128"
+export PT_HPU_MOE_TOKEN_BOUNDARY="2048, 4096" # to be fine tuned further
 
+# INC FP8 settings
 if [ "$INC_FP8" -eq 1 ]; then
   export QUANT_CONFIG="$BASH_DIR"/inc_fp8_tp1ep16.json
 fi
@@ -4,7 +4,6 @@ BASH_DIR=$(dirname "${BASH_SOURCE[0]}")
 source "$BASH_DIR"/pd_bucket.sh
 source "$BASH_DIR"/pd_env.sh
 
-export VLLM_EP_SIZE=8
 
 export VLLM_GPU_MEMORY_UTILIZATION=0.7
 export VLLM_GRAPH_RESERVED_MEM=0.1
@@ -17,6 +16,7 @@ input_min=128
 input_max=16384
 output_max=16384
 
+# ***************************************  bucketing ******************************************* #
 unset VLLM_PROMPT_BS_BUCKET_MIN VLLM_PROMPT_BS_BUCKET_STEP VLLM_PROMPT_BS_BUCKET_MAX
 unset VLLM_PROMPT_SEQ_BUCKET_MIN VLLM_PROMPT_SEQ_BUCKET_STEP VLLM_PROMPT_SEQ_BUCKET_MAX
 unset VLLM_DECODE_BS_BUCKET_MIN VLLM_DECODE_BS_BUCKET_STEP VLLM_DECODE_BS_BUCKET_MAX
@@ -37,18 +37,24 @@ env | grep VLLM_PROMPT_BS
 env | grep VLLM_PROMPT_SEQ
 env | grep VLLM_DECODE_BS
 env | grep VLLM_DECODE_BLOCK
+# ***************************************  bucketing ends ************************************* #
 
+# prefill specific setting
 export VLLM_SKIP_PREFILL_SAMPLING=1
-
-export VLLM_SKIP_WARMUP=True
 export VLLM_DP_SIZE=1
 export VLLM_USE_V1=0
+export VLLM_EP_SIZE=8
 
-#unset VLLM_SKIP_WARMUP
-#export PT_HPU_RECIPE_CACHE_CONFIG=/workspace/ww33_inc_fp8_p,false,131072
+# warmup settings
+export VLLM_SKIP_WARMUP=True
+#export PT_HPU_RECIPE_CACHE_CONFIG=/workspace/pd_p_cache,false,131072
+
+# MoE settings
+export VLLM_SUPPORT_MOE_CHUNK="false"  # Can be true after following para are tuned.
+#export PT_HPU_MOE_CHUNK="64, 128"
+#export PT_HPU_MOE_TOKEN_BOUNDARY="2048, 4096"
 
+# INC FP8 settings
 if [ "$INC_FP8" -eq 1 ]; then
   export QUANT_CONFIG="$BASH_DIR"/inc_fp8_tp8ep8.json
 fi
-
-#python3 -m vllm.entrypoints.openai.api_server --model $model_path --port 8100 --max-model-len $model_len --gpu-memory-utilization $VLLM_GPU_MEMORY_UTILIZATION -tp 16  --max-num-seqs $max_num_seqs --trust-remote-code --disable-async-output-proc --kv-cache-dtype fp8_inc --disable-log-requests --max-num-batched-tokens $max_num_batched_tokens --use-padding-aware-scheduling --use-v2-block-manager --distributed_executor_backend ray --kv-transfer-config '{"kv_connector":"MooncakeStoreConnector","kv_role":"kv_producer"}'
 
@@ -5,10 +5,6 @@
 BASH_DIR=$(dirname "${BASH_SOURCE[0]}")
 source "$BASH_DIR"/dp_d_env.sh
 
-timestamp=$(date +"%Y%m%d_%H%M%S")
-log_dir="xpyd_logs"
-mkdir -p "$log_dir"
-
 export MOONCAKE_CONFIG_PATH="$BASH_DIR"/mooncake_$1.json
 echo "MOONCAKE_CONFIG_PATH=$MOONCAKE_CONFIG_PATH"
 
@@ -72,19 +68,34 @@ do
     $kv_cache_dtype_arg
     --kv-transfer-config '{"kv_connector":"MooncakeStoreConnector","kv_role":"kv_consumer"}'
   )
-  log_file="$log_dir/log_rank${RANK}_${timestamp}.log"
+  # Only define log_file if XPYD_LOG is set
+  if [ -n "$XPYD_LOG" ]; then
+    timestamp=$(date +"%Y%m%d_%H%M%S")
+    log_file="$XPYD_LOG/log_rank${RANK}_${timestamp}.log"
+  fi
 
   extra_env=()
 #  if [ "$i" -eq 0 ] && [ "$RANK" -eq 0 ]; then
 #    extra_env+=(VLLM_PROFILER_ENABLED=true)
 #  fi
 
+  # Execute command
   if [ "$DP_RANK" -ne 1 ]; then
-    echo "env VLLM_DP_RANK=$RANK ${CMD[*]}"
-    env VLLM_DP_RANK_LOCAL="$i" VLLM_DP_RANK="$RANK" "${extra_env[@]}" "${CMD[@]}" 2>&1 | tee "$log_file" &
+    if [ -n "$XPYD_LOG" ]; then
+      echo "env VLLM_DP_RANK=$RANK ${CMD[*]} (logging to $log_file)"
+      env VLLM_DP_RANK_LOCAL="$i" VLLM_DP_RANK="$RANK" "${extra_env[@]}" "${CMD[@]}" 2>&1 | tee "$log_file" &
+    else
+      echo "env VLLM_DP_RANK=$RANK ${CMD[*]} (no logging)"
+      env VLLM_DP_RANK_LOCAL="$i" VLLM_DP_RANK="$RANK" "${extra_env[@]}" "${CMD[@]}" &
+    fi
   else
-    echo "${CMD[*]}"
-    "${CMD[@]}" &
+    if [ -n "$XPYD_LOG" ]; then
+      echo "${CMD[*]} (logging to $log_file)"
+      "${CMD[@]}" 2>&1 | tee "$log_file" &
+    else
+      echo "${CMD[*]} (no logging)"
+      "${CMD[@]}" &
+    fi
   fi
 done