如何提高推理响应速度,现在的平均响应速度是143秒。8张96GB的昆仑芯P800，响应速度还不如4张英伟达A6000+vllm的响应速度74秒

### 请提出你的问题 Please ask your question

环境：
8张昆仑芯P800(96GB显存)

执行参数如下：
python -m fastdeploy.entrypoints.openai.api_server \
  --model /Work/deepseek32b \
  --port 8188 \
  --metrics-port 8181 \
  --engine-worker-queue-port 8182 \
  --tensor-parallel-size 8 \
  --max-model-len 16384 \
  --max-num-seqs 64 \
  --max-num-batched-tokens 16384 \
  --kv-cache-ratio 0.8 \
  --enable-chunked-prefill \
  --gpu-memory-utilization 0.85 \
  --graph-optimization-config '{"use_cudagraph":true,"graph_opt_level":1}' \
  --reasoning-parser qwen3


性能详见附件，平均端到端响应速度需要143秒，这速度太慢了。

调整什么参数能提高响应速度。

推理速度慢，是PaddlePaddle的问题，还是FastDeploy的问题。
在FastDeploy上进行提问，没人回复，在FastDeploy的群里，也没人回复。

[性能分析报告.xlsx](https://github.com/user-attachments/files/21676440/default.xlsx)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

如何提高推理响应速度,现在的平均响应速度是143秒。8张96GB的昆仑芯P800，响应速度还不如4张英伟达A6000+vllm的响应速度74秒 #74476

请提出你的问题 Please ask your question

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

如何提高推理响应速度,现在的平均响应速度是143秒。8张96GB的昆仑芯P800，响应速度还不如4张英伟达A6000+vllm的响应速度74秒 #74476

Description

请提出你的问题 Please ask your question

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions