Replies: 1 comment 2 replies
-
|
目前开源版MinerU的主流程和命令行工具只直接支持PDF和图片文件,其他格式(如Word、PPT、网页)需要先转换为PDF后再处理。这是因为2.0版本起移除了内置的LibreOffice文档转换模块,提升了开源合规性和模块化设计,官方建议用户用独立的转换工具(如LibreOffice)将Office文档转为PDF后再用MinerU解析参考。 虽然近期代码库已经合入了Word(docx)文档解析相关模块(如mineru/model/docx/),支持Word结构、表格、图片、页眉页脚等内容的解析参考,但这些功能目前还没有集成到主命令行工具和主流程中,文档和CLI用法也未正式发布,说明还在开发或测试阶段。 PPT和网页等格式,目前在开源代码和文档中没有发现类似的解析模块或入口。官网之所以能宣传支持多种格式,可能是因为线上服务集成了额外的格式转换流程,或使用了尚未开源的扩展模块,但这些在开源仓库中没有直接体现。 如果需要处理Word、PPT等文档,建议先用第三方工具转为PDF,再用MinerU进行解析。 To reply, just mention @dosu. How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other |
Beta Was this translation helpful? Give feedback.
2 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
mineru官网支持word,ppt,图片,网页。为什么源码只支持pdf呢?
Beta Was this translation helpful? Give feedback.
All reactions