底层的识别模型如何配置为 paddleocr-vl-1.5 吗 #4486

wozai604 · 2026-02-04T03:57:12Z

wozai604
Feb 4, 2026

想将百度新发布的 PaddlePaddle/PaddleOCR-VL-1.5 作为底层模型，能否在MinerU框架上，通过配置的形式简单实现？
目前是使用了 mineru-api 提供的api接口，将pdf文件作为入参，完整解析pdf，想在改动最小的情况下将模型调整为百度的。
谢谢！

2026-02-04T04:02:45Z

dosubot[bot]
bot Feb 4, 2026

目前 MinerU 并不支持通过简单配置直接将底层识别模型切换为 PaddleOCR-VL-1.5。MinerU 只原生支持 PaddleOCR（paddleocr2torch 适配），所有 CLI/API 配置项仅影响 PaddleOCR 权重文件的选择，而无法切换底层引擎。如果 PaddleOCR-VL-1.5 的模型结构、输入输出与现有 PaddleOCR2Torch 兼容，并且能转为 PyTorch .pth 格式，可以尝试：

将 PaddleOCR-VL-1.5 的权重文件转换为 MinerU 支持的 PyTorch .pth 格式，并放到 ./paddleocr 目录下；
修改 models_config.yml，配置新的 det/rec 路径，确保加载的是你的新模型；
如果模型结构或输入输出与 MinerU 现有流程不兼容，则需要修改 mineru/model/ocr/paddleocr2pytorch、ocr_predictor.py 等相关代码，适配新模型的推理和数据处理流程；
目前没有插件机制或配置项可以直接切换为 PaddleOCR-VL-1.5，深度集成需要一定开发工作量，涉及 OCR 初始化、推理接口和后处理等适配参考1 参考2 参考3。

如果只是替换 PaddleOCR 权重且格式兼容，可以直接替换模型文件并更新配置；否则需要开发适配代码。VLM（vlm-vllm-engine）后端不支持 PaddleOCR-VL-1.5，仅支持 Transformer 架构的 VLM 模型参考。

如需进一步自定义开发，建议重点关注 mineru/model/ocr/paddleocr2pytorch、ocr_predictor.py、pytorch_paddle.py 及 models_config.yml 等文件。

To reply, just mention @dosu.

^{How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other}

0 replies

wozai604 · 2026-02-04T12:00:17Z

wozai604
Feb 4, 2026
Author

@myhloli 大佬，我这种有没有比较好的解决方案啊。

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

底层的识别模型如何配置为 paddleocr-vl-1.5 吗 #4486

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

底层的识别模型如何配置为 paddleocr-vl-1.5 吗 #4486

Uh oh!

wozai604 Feb 4, 2026

Replies: 2 comments

Uh oh!

dosubot[bot] bot Feb 4, 2026

Uh oh!

wozai604 Feb 4, 2026 Author

wozai604
Feb 4, 2026

dosubot[bot]
bot Feb 4, 2026

wozai604
Feb 4, 2026
Author