pdf做ocr,表格识别无法关闭 #4610
-
|
linux系统,通过python -m mineru.cli.client执行,添加了-t False,看过其他人的讨论,也添加了环境变量 |
Beta Was this translation helpful? Give feedback.
Replies: 2 comments 10 replies
-
|
在 VLM 和 Hybrid 模式下,目前确实无法关闭表格识别功能。这是设计上的限制:
解决方案:
关于"只有 html 没有 content",这是设计行为,表格内容通过 HTML 格式存储。 To reply, just mention @dosu. How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other |
Beta Was this translation helpful? Give feedback.
-
|
@dosu Pipeline 禁用表格后,表格其实还在,只是内容变成图片了,变成类似这样的 |
Beta Was this translation helpful? Give feedback.
在 VLM 和 Hybrid 模式下,目前确实无法关闭表格识别功能。这是设计上的限制:
MINERU_VLM_TABLE_ENABLE=False仅控制跨页表格合并,不影响表格提取batch_two_step_extract来自外部库mineru-vl-utils,没有参数控制表格提取NotExtractType枚举不包含表格类型,所以表格始终会被提取解决方案:
使用 Pipeline 模式(推荐)- 只有 Pipeline 模式支持完全禁用表格识别:
export MINERU_TABLE_ENABLE=false mineru input.pdf --backend pipeline注意:环境变量必须在导入 MinerU 模块之前设置
后处理过滤表格 - 如果必须使用 VLM/Hybrid 模式,可以在获取结果后过滤掉表格块:
关于"只有 html 没有 content",这是设计行为,表格内容通过 HTML 格式存储。
To reply, just mention @dosu.
How did I do? Good | Irrelevant | Incorrect | Verbose