2.7.5 docker 服务，api 可解析，但是速度缓慢，同时 GPU 没有显示任何关于 api 服务的状态，web 服务则是正常显示~ #4616

CUsopp · 2026-03-12T07:34:23Z

CUsopp
Mar 12, 2026

docker 的 stats 查看也是正常的，但是速度非常慢，GPU 占用也不显示 api 的状态。
重启之后才是正常的，感觉挺影响使用的。

我开了三个 api，同时 web 支持 vlm 和 hybrid。其它服务未开启。两个英伟达 A10 显卡，配置还是可以的。

Mar 12, 2026

Pipeline 模式也会出现这种情况的。虽然没有使用 VLM 大模型，但 pipeline 模式内部实际上使用了多个专用模型（DocLayoutYOLO、PaddleOCR、表格检测模型等），这些模型都是通过**单例模式（Singleton）**缓存的。

根据 issue #3617 和 issue #4510 的讨论，这是一个已知问题：

模型资源被单例持有，在长时间运行的 API 服务中无法完全释放
即使调用了 torch.cuda.empty_cache() 和 gc.collect() 也无法释放单例缓存的资源
完全释放内存目前只能通过重启进程

建议的临时解决方案：

定期重启 mineru-api 服务（比如每天定时重启）
设置 MINERU_VIRTUAL_VRAM_SIZE 限制 GPU 显存使用
有用户选择不使用 mineru-api，而是自己封装服务调用命令行工具来实现进程隔离

To reply, just mention @dosu.

^{How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other}

View full answer

CUsopp · 2026-03-12T07:37:13Z

dosubot[bot]
bot Mar 12, 2026

这个问题可能与 MinerU API 服务的内存泄漏有关。根据已知的 issue #4243，多次调用 mineru-api 会导致 GPU 显存持续增加直到 OOM，这是由于 vLLM 模型作为单例缓存的设计限制。

可能的解决方案：

定期重启 mineru-api 服务 - 这是目前的临时解决方案，可以完全释放显存
使用两进程模式部署 - 分离 mineru-vllm-server 和 vlm-http-client，可以获得更好的内存隔离
限制 GPU 显存使用 - 设置 MINERU_VIRTUAL_VRAM_SIZE 并将 --gpu-memory-utilization 限制为 0.4 或更低
如果是多 GPU 环境，可以尝试添加 OMP_NUM_THREADS=1 环境变量，避免多 GPU 死锁问题（参考 issue #4161）

重启后正常说明确实是运行过程中累积的问题，建议先尝试限制 GPU 显存使用率，或者考虑两进程模式部署。

To reply, just mention @dosu.

^{How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other}

2 replies

CUsopp Mar 12, 2026
Author

不是啊，只使用了 pipeline，没有使用其它的模型，应该不会出现这种情况吧？

dosubot[bot] bot Mar 12, 2026

Pipeline 模式也会出现这种情况的。虽然没有使用 VLM 大模型，但 pipeline 模式内部实际上使用了多个专用模型（DocLayoutYOLO、PaddleOCR、表格检测模型等），这些模型都是通过**单例模式（Singleton）**缓存的。

根据 issue #3617 和 issue #4510 的讨论，这是一个已知问题：

模型资源被单例持有，在长时间运行的 API 服务中无法完全释放
即使调用了 torch.cuda.empty_cache() 和 gc.collect() 也无法释放单例缓存的资源
完全释放内存目前只能通过重启进程

建议的临时解决方案：

定期重启 mineru-api 服务（比如每天定时重启）
设置 MINERU_VIRTUAL_VRAM_SIZE 限制 GPU 显存使用
有用户选择不使用 mineru-api，而是自己封装服务调用命令行工具来实现进程隔离

To reply, just mention @dosu.

^{How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other}

Answer selected by CUsopp

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2.7.5 docker 服务，api 可解析，但是速度缓慢，同时 GPU 没有显示任何关于 api 服务的状态，web 服务则是正常显示~ #4616

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 1 comment 2 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

2.7.5 docker 服务，api 可解析，但是速度缓慢，同时 GPU 没有显示任何关于 api 服务的状态，web 服务则是正常显示~ #4616

Uh oh!

Uh oh!

CUsopp Mar 12, 2026

Replies: 1 comment · 2 replies

Uh oh!

dosubot[bot] bot Mar 12, 2026

Uh oh!

CUsopp Mar 12, 2026 Author

Uh oh!

dosubot[bot] bot Mar 12, 2026

CUsopp
Mar 12, 2026

Replies: 1 comment 2 replies

dosubot[bot]
bot Mar 12, 2026

CUsopp Mar 12, 2026
Author