remove LOADWORKER

Claude Code · Claude Code · commit 2192bb3e08b8 · 2025-09-15T16:09:00.000+08:00
diff --git a/docs/CN/source/tutorial/deepseek_deployment.rst b/docs/CN/source/tutorial/deepseek_deployment.rst
@@ -30,13 +30,12 @@ LightLLM 支持以下几种部署模式：
 .. code-block:: bash
 
     # H200 单机 DeepSeek-R1 TP 模式
-    LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+    python -m lightllm.server.api_server --port 8088 \
     --model_dir /path/DeepSeek-R1 \
     --tp 8 \
     --enable_fa3
 
 **参数说明:**
-- `LOADWORKER=18`: 模型加载线程数，提高加载速度
 - `--tp 8`: 张量并行度，使用8个GPU
 - `--enable_fa3`: 启用 Flash Attention 3.0
 - `--port 8088`: 服务端口
@@ -51,7 +50,7 @@ LightLLM 支持以下几种部署模式：
 .. code-block:: bash
 
     # H200 单机 DeepSeek-R1 DP + EP 模式
-    MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+    MOE_MODE=EP python -m lightllm.server.api_server --port 8088 \
     --model_dir /path/DeepSeek-R1 \
     --tp 8 \
     --dp 8 \
@@ -82,7 +81,7 @@ LightLLM 支持以下几种部署模式：
     # H200/H100 多机 DeepSeek-R1 TP 模式 Node 0
     # 使用方法: sh multi_node_tp_node0.sh <nccl_host>
     export nccl_host=$1
-    LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+    python -m lightllm.server.api_server --port 8088 \
     --model_dir /path/DeepSeek-R1 \
     --tp 16 \
     --enable_fa3 \
@@ -98,7 +97,7 @@ LightLLM 支持以下几种部署模式：
     # H200/H100 多机 DeepSeek-R1 TP 模式 Node 1
     # 使用方法: sh multi_node_tp_node1.sh <nccl_host>
     export nccl_host=$1
-    LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+    python -m lightllm.server.api_server --port 8088 \
     --model_dir /path/DeepSeek-R1 \
     --tp 16 \
     --enable_fa3 \
@@ -125,7 +124,7 @@ LightLLM 支持以下几种部署模式：
     # H200 多机 DeepSeek-R1 EP 模式 Node 0
     # 使用方法: sh multi_node_ep_node0.sh <nccl_host>
     export nccl_host=$1
-    MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+    MOE_MODE=EP python -m lightllm.server.api_server --port 8088 \
     --model_dir /path/DeepSeek-R1 \
     --tp 16 \
     --dp 16 \
@@ -142,7 +141,7 @@ LightLLM 支持以下几种部署模式：
     # H200 多机 DeepSeek-R1 EP 模式 Node 1
     # 使用方法: sh multi_node_ep_node1.sh <nccl_host>
     export nccl_host=$1
-    MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+    MOE_MODE=EP python -m lightllm.server.api_server --port 8088 \
     --model_dir /path/DeepSeek-R1 \
     --tp 16 \
     --dp 16 \
@@ -187,7 +186,7 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署，可以
     export host=$1
     export pd_master_ip=$2
     nvidia-cuda-mps-control -d 
-    MOE_MODE=EP KV_TRANS_USE_P2P=1 LOADWORKER=18 python -m lightllm.server.api_server \
+    MOE_MODE=EP KV_TRANS_USE_P2P=1 python -m lightllm.server.api_server \
     --model_dir /path/DeepSeek-R1 \
     --run_mode "prefill" \
     --tp 8 \
@@ -211,7 +210,7 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署，可以
     export host=$1
     export pd_master_ip=$2
     nvidia-cuda-mps-control -d
-    MOE_MODE=EP KV_TRANS_USE_P2P=1 LOADWORKER=18 python -m lightllm.server.api_server \
+    MOE_MODE=EP KV_TRANS_USE_P2P=1 python -m lightllm.server.api_server \
     --model_dir /path/DeepSeek-R1 \
     --run_mode "decode" \
     --tp 8 \
@@ -279,7 +278,7 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署，可以
     export host=$1
     export config_server_host=$2
     nvidia-cuda-mps-control -d
-    MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server \
+    MOE_MODE=EP python -m lightllm.server.api_server \
     --model_dir /path/DeepSeek-R1 \
     --run_mode "prefill" \
     --host $host \
@@ -298,7 +297,7 @@ PD (Prefill-Decode) 分离模式将预填充和解码阶段分离部署，可以
     export host=$1
     export config_server_host=$2
     nvidia-cuda-mps-control -d
-    MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server \
+    MOE_MODE=EP python -m lightllm.server.api_server \
     --model_dir /path/DeepSeek-R1 \
     --run_mode "decode" \
     --host $host \
diff --git a/docs/CN/source/tutorial/multimodal.rst b/docs/CN/source/tutorial/multimodal.rst
@@ -9,7 +9,6 @@ LightLLM支持多种多模态模型的推理，下面以InternVL为例，对多
 .. code-block:: bash
 
     INTERNVL_IMAGE_LENGTH=256 \
-    LOADWORKER=12 \
     python -m lightllm.server.api_server \
     --port 8080 \
     --tp 2 \
@@ -25,7 +24,6 @@ LightLLM支持多种多模态模型的推理，下面以InternVL为例，对多
 ^^^^^^^^
 
 - **INTERNVL_IMAGE_LENGTH**: 设置InternVL模型的图像token长度，默认为256
-- **LOADWORKER**: 设置模型加载的工作进程数
 
 基础服务参数
 ^^^^^^^^^^^
diff --git a/docs/EN/source/tutorial/deepseek_deployment.rst b/docs/EN/source/tutorial/deepseek_deployment.rst
@@ -30,13 +30,12 @@ Suitable for deploying DeepSeek-R1 model on a single H200 node.
 .. code-block:: bash
 
     # H200 Single node DeepSeek-R1 TP Mode
-    LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+    python -m lightllm.server.api_server --port 8088 \
     --model_dir /path/DeepSeek-R1 \
     --tp 8 \
     --enable_fa3
 
 **Parameter Description:**
-- `LOADWORKER=18`: Model loading thread count, improves loading speed
 - `--tp 8`: Tensor parallelism, using 8 GPUs
 - `--enable_fa3`: Enable Flash Attention 3.0
 - `--port 8088`: Service port
@@ -51,7 +50,7 @@ Suitable for expert parallelism deployment of MoE models like DeepSeek-V2/V3.
 .. code-block:: bash
 
     # H200 Single node DeepSeek-R1 DP + EP Mode
-    MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+    MOE_MODE=EP python -m lightllm.server.api_server --port 8088 \
     --model_dir /path/DeepSeek-R1 \
     --tp 8 \
     --dp 8 \
@@ -82,7 +81,7 @@ Suitable for deployment across multiple H200/H100 nodes.
     # H200/H100 Multi-node DeepSeek-R1 TP Mode Node 0
     # Usage: sh multi_node_tp_node0.sh <nccl_host>
     export nccl_host=$1
-    LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+    python -m lightllm.server.api_server --port 8088 \
     --model_dir /path/DeepSeek-R1 \
     --tp 16 \
     --enable_fa3 \
@@ -98,7 +97,7 @@ Suitable for deployment across multiple H200/H100 nodes.
     # H200/H100 Multi-node DeepSeek-R1 TP Mode Node 1
     # Usage: sh multi_node_tp_node1.sh <nccl_host>
     export nccl_host=$1
-    LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+    python -m lightllm.server.api_server --port 8088 \
     --model_dir /path/DeepSeek-R1 \
     --tp 16 \
     --enable_fa3 \
@@ -125,7 +124,7 @@ Suitable for deploying MoE models across multiple nodes.
     # H200 Multi-node DeepSeek-R1 EP Mode Node 0
     # Usage: sh multi_node_ep_node0.sh <nccl_host>
     export nccl_host=$1
-    MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+    MOE_MODE=EP python -m lightllm.server.api_server --port 8088 \
     --model_dir /path/DeepSeek-R1 \
     --tp 16 \
     --dp 16 \
@@ -142,7 +141,7 @@ Suitable for deploying MoE models across multiple nodes.
     # H200 Multi-node DeepSeek-R1 EP Mode Node 1
     # Usage: sh multi_node_ep_node1.sh <nccl_host>
     export nccl_host=$1
-    MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+    MOE_MODE=EP python -m lightllm.server.api_server --port 8088 \
     --model_dir /path/DeepSeek-R1 \
     --tp 16 \
     --dp 16 \
@@ -187,7 +186,7 @@ PD (Prefill-Decode) disaggregation mode separates prefill and decode stages for
     export host=$1
     export pd_master_ip=$2
     nvidia-cuda-mps-control -d 
-    MOE_MODE=EP KV_TRANS_USE_P2P=1 LOADWORKER=18 python -m lightllm.server.api_server \
+    MOE_MODE=EP KV_TRANS_USE_P2P=1 python -m lightllm.server.api_server \
     --model_dir /path/DeepSeek-R1 \
     --run_mode "prefill" \
     --tp 8 \
@@ -197,7 +196,7 @@ PD (Prefill-Decode) disaggregation mode separates prefill and decode stages for
     --nccl_port 2732 \
     --enable_fa3 \
     --disable_cudagraph \
-    --pd_master_ip $pd_master_ip 
+    --pd_master_ip $pd_master_ip
 
 **Step 3: Launch Decode Service**
 
@@ -208,7 +207,7 @@ PD (Prefill-Decode) disaggregation mode separates prefill and decode stages for
     export host=$1
     export pd_master_ip=$2
     nvidia-cuda-mps-control -d
-    MOE_MODE=EP KV_TRANS_USE_P2P=1 LOADWORKER=18 python -m lightllm.server.api_server \
+    MOE_MODE=EP KV_TRANS_USE_P2P=1 python -m lightllm.server.api_server \
     --model_dir /path/DeepSeek-R1 \
     --run_mode "decode" \
     --tp 8 \
@@ -276,7 +275,7 @@ Supports multiple PD Master nodes, providing better load balancing and high avai
     export host=$1
     export config_server_host=$2
     nvidia-cuda-mps-control -d
-    MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server \
+    MOE_MODE=EP python -m lightllm.server.api_server \
     --model_dir /path/DeepSeek-R1 \
     --run_mode "prefill" \
     --host $host \
@@ -295,7 +294,7 @@ Supports multiple PD Master nodes, providing better load balancing and high avai
     export host=$1
     export config_server_host=$2
     nvidia-cuda-mps-control -d
-    MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server \
+    MOE_MODE=EP python -m lightllm.server.api_server \
     --model_dir /path/DeepSeek-R1 \
     --run_mode "decode" \
     --host $host \
diff --git a/docs/EN/source/tutorial/multimodal.rst b/docs/EN/source/tutorial/multimodal.rst
@@ -9,7 +9,6 @@ Basic Launch Command
 .. code-block:: bash
 
     INTERNVL_IMAGE_LENGTH=256 \
-    LOADWORKER=12 \
     python -m lightllm.server.api_server \
     --port 8080 \
     --tp 2 \
@@ -25,7 +24,6 @@ Environment Variables
 ^^^^^^^^^^^^^^^^^^^^
 
 - **INTERNVL_IMAGE_LENGTH**: Set the image token length for InternVL model, default is 256
-- **LOADWORKER**: Set the number of worker processes for model loading
 
 Basic Service Parameters
 ^^^^^^^^^^^^^^^^^^^^^^^
diff --git a/lightllm/common/basemodel/layer_weights/hf_load_utils.py b/lightllm/common/basemodel/layer_weights/hf_load_utils.py
@@ -51,6 +51,7 @@ def load_hf_weights(data_type, weight_dir, pre_post_layer=None, transformer_laye
         candidate_files = list(filter(lambda x: x.endswith(".bin"), files))
     assert len(candidate_files) != 0, "can only support pytorch tensor and safetensors format for weights."
     from functools import partial
+    from multiprocessing import cpu_count
     from multiprocessing.pool import ThreadPool as Pool
 
     partial_func = partial(
@@ -60,7 +61,7 @@ def load_hf_weights(data_type, weight_dir, pre_post_layer=None, transformer_laye
         transformer_layer_list=transformer_layer_list,
         weight_dir=weight_dir,
     )  # noqa
-    worker = int(os.environ.get("LOADWORKER", 24))
+    worker = min(24, cpu_count())
     with Pool(worker) as p:
         iterator = p.imap_unordered(partial_func, candidate_files, chunksize=1)
         desc_str = f"pid {os.getpid()} Loading model weights with {worker} workers"
diff --git a/test/start_scripts/README.md b/test/start_scripts/README.md
@@ -98,7 +98,6 @@ sh multi_pd_master/pd_decode.sh <host> <config_server_host>
 
 ### Environment Variables
 
-- `LOADWORKER`: Model loading thread count, recommended 8-18
 - `MOE_MODE`: Expert parallelism mode, set to EP to enable expert parallelism
 - `KV_TRANS_USE_P2P`: Enable P2P communication optimization
 - `CUDA_VISIBLE_DEVICES`: Specify GPU devices to use
diff --git a/test/start_scripts/multi_node_ep_node0.sh b/test/start_scripts/multi_node_ep_node0.sh
@@ -2,7 +2,7 @@
 # nccl_host: the ip of the nccl host
 # sh multi_node_ep_node0.sh <nccl_host>
 export nccl_host=$1
-MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+MOE_MODE=EP python -m lightllm.server.api_server --port 8088 \
 --model_dir /path/DeepSeek-R1 \
 --tp 16 \
 --dp 16 \
diff --git a/test/start_scripts/multi_node_ep_node1.sh b/test/start_scripts/multi_node_ep_node1.sh
@@ -2,7 +2,7 @@
 # nccl_host: the ip of the nccl host
 # sh multi_node_ep_node1.sh <nccl_host>
 export nccl_host=$1
-MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+MOE_MODE=EP python -m lightllm.server.api_server --port 8088 \
 --model_dir /path/DeepSeek-R1 \
 --tp 16 \
 --dp 16 \
diff --git a/test/start_scripts/multi_node_tp_node0.sh b/test/start_scripts/multi_node_tp_node0.sh
@@ -2,7 +2,7 @@
 # nccl_host: the ip of the nccl host
 # sh multi_node_tp_node0.sh <nccl_host>
 export nccl_host=$1
-LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+python -m lightllm.server.api_server --port 8088 \
 --model_dir /path/DeepSeek-R1 \
 --tp 16 \
 --enable_fa3 \
diff --git a/test/start_scripts/multi_node_tp_node1.sh b/test/start_scripts/multi_node_tp_node1.sh
@@ -2,7 +2,7 @@
 # nccl_host: the ip of the nccl host
 # sh multi_node_tp_node1.sh <nccl_host>
 export nccl_host=$1
-LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+python -m lightllm.server.api_server --port 8088 \
 --model_dir /path/DeepSeek-R1 \
 --tp 16 \
 --enable_fa3 \
diff --git a/test/start_scripts/multi_pd_master.sh b/test/start_scripts/multi_pd_master.sh
@@ -6,7 +6,7 @@ python -m lightllm.server.api_server --model_dir /mtc/models/DeepSeek-V2-Lite-Ch
 python -m lightllm.server.api_server --model_dir /mtc/models/DeepSeek-V2-Lite-Chat --run_mode "pd_master" --host 10.120.114.74 --port 60012 --config_server_host 10.120.114.74 --config_server_port 60088
 
 nvidia-cuda-mps-control -d 
-CUDA_VISIBLE_DEVICES=0 KV_TRANS_USE_P2P=1 LOADWORKER=1 python -m lightllm.server.api_server --model_dir /mtc/models/DeepSeek-V2-Lite-Chat \
+CUDA_VISIBLE_DEVICES=0 KV_TRANS_USE_P2P=1 python -m lightllm.server.api_server --model_dir /mtc/models/DeepSeek-V2-Lite-Chat \
 --run_mode "prefill" \
 --host 10.120.178.74 \
 --port 8019 \
@@ -20,7 +20,7 @@ CUDA_VISIBLE_DEVICES=0 KV_TRANS_USE_P2P=1 LOADWORKER=1 python -m lightllm.server
 --config_server_host 10.120.114.74 \
 --config_server_port 60088
 
-CUDA_VISIBLE_DEVICES=1 KV_TRANS_USE_P2P=1 LOADWORKER=10 python -m lightllm.server.api_server --model_dir /mtc/models/DeepSeek-V2-Lite-Chat \
+CUDA_VISIBLE_DEVICES=1 KV_TRANS_USE_P2P=1 python -m lightllm.server.api_server --model_dir /mtc/models/DeepSeek-V2-Lite-Chat \
 --run_mode "decode" \
 --host 10.120.178.74 \
 --port 8121 \
diff --git a/test/start_scripts/multi_pd_master/pd_decode.sh b/test/start_scripts/multi_pd_master/pd_decode.sh
@@ -5,7 +5,7 @@
 export host=$1
 export config_server_host=$2
 nvidia-cuda-mps-control -d
-MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server \
+MOE_MODE=EP python -m lightllm.server.api_server \
 --model_dir /path/DeepSeek-R1 \
 --run_mode "decode" \
 --host $host \
diff --git a/test/start_scripts/multi_pd_master/pd_prefill.sh b/test/start_scripts/multi_pd_master/pd_prefill.sh
@@ -5,7 +5,7 @@
 export host=$1
 export config_server_host=$2
 nvidia-cuda-mps-control -d
-MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server \
+MOE_MODE=EP python -m lightllm.server.api_server \
 --model_dir /path/DeepSeek-R1 \
 --run_mode "prefill" \
 --host $host \
diff --git a/test/start_scripts/single_node_ep.sh b/test/start_scripts/single_node_ep.sh
@@ -1,5 +1,5 @@
 # H200 single node deepseek R1 dpep mode
-MOE_MODE=EP LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+MOE_MODE=EP python -m lightllm.server.api_server --port 8088 \
 --model_dir /path/DeepSeek-R1 \
 --tp 8 \
 --dp 8 \
diff --git a/test/start_scripts/single_node_tp.sh b/test/start_scripts/single_node_tp.sh
@@ -1,5 +1,5 @@
 # H200 single node deepseek R1 tp mode
-LOADWORKER=18 python -m lightllm.server.api_server --port 8088 \
+python -m lightllm.server.api_server --port 8088 \
 --model_dir /path/DeepSeek-R1 \
 --tp 8 \
 --enable_fa3
diff --git a/test/start_scripts/single_pd_master/pd_decode.sh b/test/start_scripts/single_pd_master/pd_decode.sh
@@ -5,7 +5,7 @@
 export host=$1
 export pd_master_ip=$2
 nvidia-cuda-mps-control -d
-MOE_MODE=EP KV_TRANS_USE_P2P=1 LOADWORKER=18 python -m lightllm.server.api_server \
+MOE_MODE=EP KV_TRANS_USE_P2P=1 python -m lightllm.server.api_server \
 --model_dir /path/DeepSeek-R1 \
 --run_mode "decode" \
 --tp 8 \
diff --git a/test/start_scripts/single_pd_master/pd_prefill.sh b/test/start_scripts/single_pd_master/pd_prefill.sh
@@ -5,7 +5,7 @@
 export host=$1
 export pd_master_ip=$2
 nvidia-cuda-mps-control -d 
-MOE_MODE=EP KV_TRANS_USE_P2P=1 LOADWORKER=18 python -m lightllm.server.api_server \
+MOE_MODE=EP KV_TRANS_USE_P2P=1 python -m lightllm.server.api_server \
 --model_dir /path/DeepSeek-R1 \
 --run_mode "prefill" \
 --tp 8 \