add scripts to start ray and vllm

sumingZero · sumingZero · commit d3953d04608e · 2025-12-21T19:31:12.000-08:00
diff --git a/examples/dev/config.properties b/examples/dev/config.properties
@@ -0,0 +1,48 @@
+#*****************************
+#     ray   Configuration    *
+#*****************************
+CUDA_VISIBLE_DEVICES=1,2,3,4,5,6,7
+ASCEND_RT_VISIBLE_DEVICES=1,2,3,4,5,6,7
+# For multi-node and multi-gpu inference
+RAY_EXPERIMENTAL_NOSET_CUDA_VISIBLE_DEVICES=1 
+MASTER_IP=192.168.0.205
+WORKER_IP=192.168.0.127
+# Total number of nodes in multi-node inference
+NODE_NUM=2
+
+
+#*****************************
+#     vLLM  Configuration    *
+#*****************************
+# Avoid the error "RuntimeError: CUDASymmetricMemoryAllocator" during multi-node, multi-GPU inference. See it in the issue: https://github.com/vllm-project/vllm/issues/24694
+VLLM_ALLREDUCE_USE_SYMM_MEM=0
+VLLM_LOGGING_LEVEL=INFO
+MODEL=/home/models/QwQ-32B
+# If not specified, the model name will be the same as the --model argument.
+# SERVED_MODEL_NAME=qwen
+TP_SIZE=8
+DP_SIZE=1
+PP_SIZE=1
+# 0 | 1 ; Set 1 to enable expert parallel
+ENABLE_EXPERT_PARALLEL=0
+MAX_MODEL_LEN=20000
+MAX_NUM_BATCH_TOKENS=20000
+MAX_NUM_SEQS=64
+BLOCK_SIZE=128
+GPU_MEMORY_UTILIZATION=0.87
+SERVER_HOST=0.0.0.0
+SERVER_PORT=7850
+ENABLE_PREFIX_CACHING=0
+ASYNC_SCHEDULING=0
+# NONE | PIECEWISE | FULL | FULL_DECODE_ONLY | FULL_AND_PIECEWISE
+GRAPH_MODE=FULL_DECODE_ONLY
+QUANTIZATION=None
+# mp | ray ; Set mp to start single-node inference
+DISTRIBUTED_EXECUTOR_BACKEND=mp
+
+
+#*****************************
+#     UCM  Configuration     *
+#*****************************
+UCM_ENABLE=1
+UCM_CONFIG_YAML_PATH=/vllm-workspace/unified-cache-management/examples/ucm_config_example.yaml
diff --git a/examples/dev/run_vllm.sh b/examples/dev/run_vllm.sh
@@ -0,0 +1,109 @@
+#!/bin/bash
+
+load_config() {
+    local config_file
+    config_file="$(dirname "${BASH_SOURCE[0]}")/config.properties"
+    if [[ ! -f "$config_file" ]]; then
+        echo "ERROR: Config file '$config_file' not found!" >&2
+        exit 1
+    fi
+
+    while IFS='=' read -r key value; do
+        key=$(echo "$key" | sed 's/^[[:space:]]*//;s/[[:space:]]*$//')
+        value=$(echo "$value" | sed 's/^[[:space:]]*//;s/[[:space:]]*$//')
+
+        [[ -z "$key" || "$key" == \#* ]] && continue
+
+        export "$key"="$value"
+    done < <(grep -v '^\s*#' "$config_file" | grep -v '^\s*$')
+}
+
+start_server() {
+    [[ -z "$MODEL" ]] && { echo "ERROR: MODEL not set in config.properties" >&2; exit 1; }
+
+    if [[ "$UCM_ENABLE" == "1" ]]; then
+        [[ -z "$UCM_CONFIG_YAML_PATH" ]] && {
+            echo "ERROR: UCM_CONFIG_YAML_PATH not set but UCM_ENABLE=1" >&2
+            exit 1
+        }
+        LOG_FILE="vllm_ucm.log"
+    else
+        LOG_FILE="vllm.log"
+    fi
+
+    echo ""
+    echo "===== vLLM Server Configuration ====="
+    echo "MODEL                    = $MODEL"
+    echo "SERVED_MODEL_NAME        = ${SERVED_MODEL_NAME:-<default>}"
+    echo "TP_SIZE                  = $TP_SIZE"
+    echo "DP_SIZE                  = $DP_SIZE"
+    echo "PP_SIZE                  = $PP_SIZE"
+    echo "ENABLE_EXPERT_PARALLEL   = $ENABLE_EXPERT_PARALLEL"
+    echo "MAX_MODEL_LEN            = $MAX_MODEL_LEN"
+    echo "MAX_NUM_BATCHED_TOKENS   = $MAX_NUM_BATCH_TOKENS"
+    echo "MAX_NUM_SEQS             = $MAX_NUM_SEQS"
+    echo "BLOCK_SIZE               = $BLOCK_SIZE"
+    echo "GPU_MEMORY_UTILIZATION   = $GPU_MEMORY_UTILIZATION"
+    echo "QUANTIZATION             = $QUANTIZATION"
+    echo "SERVER_HOST              = $SERVER_HOST"
+    echo "SERVER_PORT              = $SERVER_PORT"
+    echo "DISTRIBUTED_BACKEND      = $DISTRIBUTED_EXECUTOR_BACKEND"
+    echo "ENABLE_PREFIX_CACHING    = $ENABLE_PREFIX_CACHING"
+    echo "ASYNC_SCHEDULING         = $ASYNC_SCHEDULING"
+    echo "GRAPH_MODE               = $GRAPH_MODE"
+    if [[ "$UCM_ENABLE" == "1" ]]; then
+        echo "UCM_CONFIG_FILE          = $UCM_CONFIG_YAML_PATH"
+    fi
+    echo "LOG_FILE                 = $LOG_FILE"
+    echo "====================================="
+    echo ""
+
+    CMD=(
+        vllm serve "$MODEL"
+        --max-model-len "$MAX_MODEL_LEN"
+        --tensor-parallel-size "$TP_SIZE"
+        --data-parallel-size "$DP_SIZE"
+        --pipeline-parallel-size "$PP_SIZE"
+        --gpu-memory-utilization "$GPU_MEMORY_UTILIZATION"
+        --trust-remote-code
+        --max-num-batched-tokens "$MAX_NUM_BATCH_TOKENS"
+        --max-num-seqs "$MAX_NUM_SEQS"
+        --block-size "$BLOCK_SIZE"
+        --host "$SERVER_HOST"
+        --port "$SERVER_PORT"
+        --distributed-executor-backend "$DISTRIBUTED_EXECUTOR_BACKEND"
+    )
+
+    if [[ "$ENABLE_EXPERT_PARALLEL" == "1" ]]; then CMD+=("--enable-expert-parallel"); fi
+
+    if [[ "$ENABLE_PREFIX_CACHING" == "0" ]]; then CMD+=("--no-enable-prefix-caching"); fi
+
+    if [[ "$ASYNC_SCHEDULING" == "1" ]]; then CMD+=("--async-scheduling"); fi
+
+    [[ -n "$SERVED_MODEL_NAME" ]] && CMD+=("--served-model-name" "$SERVED_MODEL_NAME")
+    
+    [[ "$QUANTIZATION" != "None" ]] && CMD+=("--quantization" "$QUANTIZATION")
+
+    if [[ "$UCM_ENABLE" == "1" ]]; then
+        KV_CONFIG_JSON="{
+            \"kv_connector\":\"UCMConnector\",
+            \"kv_connector_module_path\":\"ucm.integration.vllm.ucm_connector\",
+            \"kv_role\":\"kv_both\",
+            \"kv_connector_extra_config\":{\"UCM_CONFIG_FILE\":\"$UCM_CONFIG_YAML_PATH\"}
+        }"
+        CMD+=("--kv-transfer-config" "$KV_CONFIG_JSON")
+    fi
+
+    if [[ -n "$GRAPH_MODE" ]]; then 
+        COMPILATION_CONFIG='{"cudagraph_mode":"'"$GRAPH_MODE"'"}'
+        CMD+=("--compilation-config" "$COMPILATION_CONFIG")
+    fi
+
+    echo "Executing command: ${CMD[*]}"
+    echo ""
+
+    "${CMD[@]}" 2>&1 | tee "$LOG_FILE"
+}
+
+load_config
+start_server
diff --git a/examples/dev/start_ray.sh b/examples/dev/start_ray.sh
@@ -0,0 +1,123 @@
+#!/bin/bash
+
+if [[ -z "$NODE" ]]; then
+    echo "ERROR: Please set NODE=N before running. N should be 0 for head node; 1,2,3... for workers. Note the IPs and environment variables in the script should be modified accordingly. "
+    echo "Usage: NODE=0 ./start_ray.sh"
+    exit 1
+fi
+
+load_config() {
+    config_file="$(dirname "${BASH_SOURCE[0]}")/config.properties"
+    if [[ ! -f "$config_file" ]]; then
+        echo "ERROR: Config file '$config_file' not found!"
+        exit 1
+    fi
+
+    while IFS='=' read -r key value; do
+        key=$(echo "$key" | sed 's/^[[:space:]]*//;s/[[:space:]]*$//')
+        value=$(echo "$value" | sed 's/^[[:space:]]*//;s/[[:space:]]*$//')
+
+        if [[ -z "$key" ]] || [[ "$key" == \#* ]]; then
+            continue
+        fi
+
+        export "$key"="$value"
+    done < <(grep -v '^\s*#' "$config_file" | grep -v '^\s*$')
+}
+
+ensure_ifconfig_installed() {
+    if command -v ifconfig >/dev/null 2>&1; then
+        return 0
+    fi
+
+    echo "ifconfig not found. Attempting to install net-tools..."
+
+    if command -v apt-get >/dev/null 2>&1; then
+        echo "Detected apt-get (Debian/Ubuntu). Installing net-tools..."
+        sudo apt-get update && sudo apt-get install -y net-tools
+    elif command -v yum >/dev/null 2>&1; then
+        echo "Detected yum (RHEL/CentOS). Installing net-tools..."
+        sudo yum install -y net-tools
+    elif command -v dnf >/dev/null 2>&1; then
+        echo "Detected dnf (Fedora). Installing net-tools..."
+        sudo dnf install -y net-tools
+    else
+        echo "ERROR: No supported package manager (apt/yum/dnf) found."
+        echo "Please install 'net-tools' manually or use a system with 'ip' command."
+        exit 1
+    fi
+
+    if ! command -v ifconfig >/dev/null 2>&1; then
+        echo "ERROR: Failed to install ifconfig. Please check permissions or network."
+        exit 1
+    fi
+
+    echo "✅ ifconfig is now available."
+}
+
+get_interface_by_ip() {
+    local target_ip="$1"
+    ifconfig | awk -v target="$target_ip" '
+        /^[[:alnum:]]/ {
+            iface = $1
+            sub(/:$/, "", iface)  
+        }
+        /inet / {
+            for (i = 1; i <= NF; i++) {
+                gsub(/addr:/, "", $i)
+                if ($i == target) {
+                    print iface
+                    exit
+                }
+            }
+        }
+    '
+}
+
+set_node_env(){
+    if [[ "$NODE" == "0" ]]; then
+        export TARGET_IP="$MASTER_IP"
+    else
+        export TARGET_IP="$WORKER_IP"
+    fi
+
+    IFACE=$(get_interface_by_ip "$TARGET_IP")
+
+    if [[ -z "$IFACE" ]]; then
+        echo "WARNING: Could not find interface with IP $TARGET_IP via ifconfig. Falling back to 'eth0'."
+        IFACE="eth0"
+    else
+        echo "✅ Detected interface: $IFACE (bound to IP $TARGET_IP)"
+    fi
+
+    export HCCL_IF_IP="$TARGET_IP"
+    export NCCL_SOCKET_IFNAME="$IFACE"
+    export GLOO_SOCKET_IFNAME="$IFACE"
+    export TP_SOCKET_IFNAME="$IFACE"
+    export NUM_GPUS=$(($TP_SIZE / $NODE_NUM))
+
+    echo ""
+    echo "===== Ray Startup Configuration ======"
+    echo "NODE                     = $NODE"
+    echo "LOCAL_IP                 = $TARGET_IP"
+    if [[ "$NODE" != "0" ]]; then
+        echo "MASTER_IP                = $MASTER_IP"
+    fi
+    echo "NETWORK_INTERFACE        = $IFACE"
+    echo "NUM_GPUS (per node)      = $NUM_GPUS"
+    echo "CUDA_VISIBLE_DEVICES     = $CUDA_VISIBLE_DEVICES"
+    echo "ASCEND_RT_VISIBLE_DEVICES= $ASCEND_RT_VISIBLE_DEVICES"
+    echo "======================================"
+    echo ""
+}
+
+load_config
+set_node_env
+
+if [[ "$NODE" == "0" ]]; then
+    echo "Starting Ray head node on NODE 0, MASTER_IP: $TARGET_IP"
+    ray start --head --num-gpus=$NUM_GPUS --node-ip-address="$TARGET_IP" --port=6379
+else
+    echo "Starting Ray worker node on NODE $NODE, WORKER_IP=$TARGET_IP, connecting to master at $MASTER_IP"
+    ray start --address="$MASTER_IP:6379" --num-gpus=$NUM_GPUS --node-ip-address="$TARGET_IP"
+fi