|
93 | 93 |
|
94 | 94 | .. code-block:: console |
95 | 95 |
|
96 | | - $ CUDA_VISIBLE_DEVICES=0 python -m lightllm.server.api_server \ |
| 96 | + $ python -m lightllm.server.api_server \ |
97 | 97 | $ --model_dir /your/model/path \ |
98 | 98 | $ --run_mode "pd_master" \ |
99 | 99 | $ --host /your/host/ip \ |
|
165 | 165 | $ cd test |
166 | 166 | $ python benchmark_client.py --num_clients 100 --input_num 2000 --tokenizer_path /nvme/DeepSeek-R1/ --url http://127.0.01:8000/generate_stream |
167 | 167 |
|
| 168 | +
|
| 169 | +3. PD 分离多PD_Master节点类型启动模型服务 |
| 170 | +------------------------- |
| 171 | +查找本机IP |
| 172 | + |
| 173 | +.. code-block:: console |
| 174 | +
|
| 175 | + $ hostname -i |
| 176 | +
|
| 177 | +运行MPS(可选, 有mps支持性能会好特别多,但是部分显卡和驱动环境开启mps会容易出现错误,建议升级驱动到较高版本,特别是H系列卡) |
| 178 | + |
| 179 | +.. code-block:: console |
| 180 | +
|
| 181 | + $ nvidia-cuda-mps-control -d |
| 182 | +
|
| 183 | +
|
| 184 | +运行config_server服务 |
| 185 | +.. code-block:: console |
| 186 | +
|
| 187 | +$ python -m lightllm.server.api_server \ |
| 188 | +$ --run_mode "config_server" \ |
| 189 | +$ --config_server_host /your/host/ip \ |
| 190 | +$ --config_server_port 60088 \ |
| 191 | + |
| 192 | + |
| 193 | +运行pd_master服务, 在多pd_master节点模式下,可以开启多个pd_master服务,来实现负载均衡,单个pd_master因为python gil锁的原因 |
| 194 | +其并发性能存在上限。 |
| 195 | + |
| 196 | +.. code-block:: console |
| 197 | +
|
| 198 | + $ python -m lightllm.server.api_server \ |
| 199 | + $ --model_dir /your/model/path \ |
| 200 | + $ --run_mode "pd_master" \ |
| 201 | + $ --host /your/host/ip \ |
| 202 | + $ --port 60011 \ |
| 203 | + $ --config_server_host <config_server_host> \ |
| 204 | + $ --config_server_port <config_server_port> |
| 205 | +
|
| 206 | +新建终端,运行prefill服务 |
| 207 | + |
| 208 | +.. code-block:: console |
| 209 | +
|
| 210 | + $ CUDA_VISIBLE_DEVICES=0,1 KV_TRANS_USE_P2P=1 LOADWORKER=1 python -m lightllm.server.api_server --model_dir /data/fengdahu/model/Qwen2-7B/ \ |
| 211 | + $ --run_mode "prefill" \ |
| 212 | + $ --host /your/host/ip \ |
| 213 | + $ --port 8017 \ |
| 214 | + $ --tp 2 \ |
| 215 | + $ --nccl_port 2732 \ |
| 216 | + $ --max_total_token_num 400000 \ |
| 217 | + $ --tokenizer_mode fast \ |
| 218 | + $ --use_dynamic_prompt_cache \ |
| 219 | + $ --max_req_total_len 16000 \ |
| 220 | + $ --running_max_req_size 128 \ |
| 221 | + $ --disable_cudagraph \ |
| 222 | + $ --config_server_host <config_server_host> \ |
| 223 | + $ --config_server_port <config_server_port> |
| 224 | +
|
| 225 | +新建终端,运行decoding服务 |
| 226 | + |
| 227 | +.. code-block:: console |
| 228 | +
|
| 229 | + $ CUDA_VISIBLE_DEVICES=2,3 KV_TRANS_USE_P2P=1 LOADWORKER=10 python -m lightllm.server.api_server --model_dir /data/fengdahu/model/Qwen2-7B/ \ |
| 230 | + $ --run_mode "decode" \ |
| 231 | + $ --host /your/host/ip \ |
| 232 | + $ --port 8118 \ |
| 233 | + $ --nccl_port 12322 \ |
| 234 | + $ --tp 2 \ |
| 235 | + $ --max_total_token_num 400000 \ |
| 236 | + $ --graph_max_len_in_batch 2048 \ |
| 237 | + $ --graph_max_batch_size 16 \ |
| 238 | + $ --tokenizer_mode fast \ |
| 239 | + $ --use_dynamic_prompt_cache \ |
| 240 | + $ --config_server_host <config_server_host> \ |
| 241 | + $ --config_server_port <config_server_port> |
| 242 | +
|
| 243 | +.. note:: |
| 244 | + prefill和decoding阶段的tp大小保持一致, 目前可以支持 prefill 和 decode 节点的数量是变化的,同时prefill 和 decode可以跨机部署。 |
| 245 | + |
| 246 | + |
| 247 | +4. (可选)测试模型服务 |
| 248 | +------------------------- |
| 249 | + |
| 250 | +在新的终端,使用下面的指令对模型服务进行测试, 在多pd_master模式下,每个pd_master都可以作为访问入口: |
| 251 | + |
| 252 | +.. code-block:: console |
| 253 | +
|
| 254 | + $ curl http://server_ip:server_port/generate \ |
| 255 | + $ -H "Content-Type: application/json" \ |
| 256 | + $ -d '{ |
| 257 | + $ "inputs": "What is AI?", |
| 258 | + $ "parameters":{ |
| 259 | + $ "max_new_tokens":17, |
| 260 | + $ "frequency_penalty":1 |
| 261 | + $ } |
| 262 | + $ }' |
| 263 | +
|
| 264 | +
|
| 265 | +对于DeepSeek-R1模型,可以用如下脚本进行测试: |
| 266 | + |
| 267 | +.. code-block:: console |
| 268 | +
|
| 269 | + $ cd test |
| 270 | + $ python benchmark_client.py --num_clients 100 --input_num 2000 --tokenizer_path /nvme/DeepSeek-R1/ --url http://127.0.01:8000/generate_stream |
| 271 | +
|
0 commit comments