-
|
目前推理,我们的单张图片很复杂,官网推理时间很长,本地部署 api: pipe3-6s,vlm 23s,http-client 23s左右,是部署存在问题吗? |
Beta Was this translation helpful? Give feedback.
Replies: 1 comment
-
|
你的本地推理时长(pipe3: 6秒,vlm/http-client: 23秒)在处理复杂单页技术文档时是正常现象,不属于部署异常。社区和官方多次反馈,VLM(如vllm)后端在复杂图片、文本量大、表格多的情况下,单张推理2-20秒都属于正常区间,且推理时长与图片复杂度、文本量成正比,pipe3(transformers/pipeline)通常更快一些,但精度略低于VLM后端参考1 参考2。 影响推理时长的主要因素有:图片复杂度、所选后端(pipeline/vlm/http-client)、硬件配置(GPU型号与显存)、batch size、并发数、是否启用表格/公式识别等参考3。 优化建议:
如果需要进一步提速,建议补充硬件配置、具体命令参数、日志片段,便于定位瓶颈。整体来看,你的推理时长属于正常范围,无需担心部署问题。 To reply, just mention @dosu. How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other |
Beta Was this translation helpful? Give feedback.
你的本地推理时长(pipe3: 6秒,vlm/http-client: 23秒)在处理复杂单页技术文档时是正常现象,不属于部署异常。社区和官方多次反馈,VLM(如vllm)后端在复杂图片、文本量大、表格多的情况下,单张推理2-20秒都属于正常区间,且推理时长与图片复杂度、文本量成正比,pipe3(transformers/pipeline)通常更快一些,但精度略低于VLM后端参考1 参考2。
影响推理时长的主要因素有:图片复杂度、所选后端(pipeline/vlm/http-client)、硬件配置(GPU型号与显存)、batch size、并发数、是否启用表格/公式识别等参考3。
优化建议: