Skip to content
Discussion options

You must be logged in to vote

你的本地推理时长(pipe3: 6秒,vlm/http-client: 23秒)在处理复杂单页技术文档时是正常现象,不属于部署异常。社区和官方多次反馈,VLM(如vllm)后端在复杂图片、文本量大、表格多的情况下,单张推理2-20秒都属于正常区间,且推理时长与图片复杂度、文本量成正比,pipe3(transformers/pipeline)通常更快一些,但精度略低于VLM后端参考1 参考2

影响推理时长的主要因素有:图片复杂度、所选后端(pipeline/vlm/http-client)、硬件配置(GPU型号与显存)、batch size、并发数、是否启用表格/公式识别等参考3

优化建议:

  • 确认 MinerU 及模型为最新版,并与官网一致参考4
  • 如不需要表格/公式识别,可通过环境变量关闭(MINERU_TABLE_ENABLE=false,MINERU_FORMULA_ENABLE=false),减少CPU负载。
  • pipeline 后端可通过 MINERU_MIN_BATCH_INFERENCE_SIZE 调大 batch size(如384),提升吞吐。
  • vllm 后端建议 max_concurrency 设为10以内,gpu_memory_utilization 设为0.7~0.8,batch_size 8-16(视显存而定)。
  • vllm/http-client 后端如需高吞吐,需多client并发请求,单client会串行处理,速度受限参考5
  • 复杂表格建议用 pipeline 或强制 OCR 模式(--method ocr),更稳定参考6
  • 保证 CUD…

Replies: 1 comment

Comment options

You must be logged in to vote
0 replies
Answer selected by CUsopp
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Category
Q&A
Labels
None yet
1 participant