Skip to content

如何提高推理响应速度,现在的平均响应速度是143秒。8张96GB的昆仑芯P800,响应速度还不如4张英伟达A6000+vllm的响应速度74秒 #74476

@xiangvictory

Description

@xiangvictory

请提出你的问题 Please ask your question

环境:
8张昆仑芯P800(96GB显存)

执行参数如下:
python -m fastdeploy.entrypoints.openai.api_server
--model /Work/deepseek32b
--port 8188
--metrics-port 8181
--engine-worker-queue-port 8182
--tensor-parallel-size 8
--max-model-len 16384
--max-num-seqs 64
--max-num-batched-tokens 16384
--kv-cache-ratio 0.8
--enable-chunked-prefill
--gpu-memory-utilization 0.85
--graph-optimization-config '{"use_cudagraph":true,"graph_opt_level":1}'
--reasoning-parser qwen3

性能详见附件,平均端到端响应速度需要143秒,这速度太慢了。

调整什么参数能提高响应速度。

推理速度慢,是PaddlePaddle的问题,还是FastDeploy的问题。
在FastDeploy上进行提问,没人回复,在FastDeploy的群里,也没人回复。

性能分析报告.xlsx

Metadata

Metadata

Assignees

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions