对于单元格中带空格的识别准确率
#4440
Replies: 1 comment
-
|
单元格内容中带空格被拆分成多个单元格、导致顺序混乱,是MinerU已知的表格识别问题,尤其在 VLM 后端和复杂表格场景下更明显。这个拆分行为主要来自表格模型(如 RapidTable/VLM),MinerU自身代码不会按空格拆分单元格,也没有配置项能直接修复这个问题,输出只是转发模型的 HTML 结果相关讨论。 常见解决办法有:切换到 pipeline 后端(空间排序能减少拆分)、强制使用 OCR 模式( 目前没有官方配置能彻底解决空格拆分问题,根本原因在于底层表格模型的输出。你可以尝试优化输入图片质量(对比度、裁剪、去除干扰线),或用 middle.json、layout.pdf 辅助定位拆分点,手动修正相关说明。如果有更高精度需求,可以关注 RapidTable 的 unitable 子模型,但需要 CUDA 支持,速度较慢相关讨论。 如需脚本示例或具体操作建议可以补充说明。 To reply, just mention @dosu. How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
对于单元格中带空格的,现在模型会通过空格拆分成两个独立的单元格,导致顺序混乱
Beta Was this translation helpful? Give feedback.
All reactions