Replies: 1 comment
-
|
MinerU合并跨页表格后,最终 content_list.json 里的表格对象只保留了首段(第一页)的 page_idx,无法直接获取跨页后(如第二页)文本的真实页码。要追溯每段内容的真实页码,需要在 middle.json 的 preproc_blocks 结构中,遍历表格的所有子块(如 line、span),收集每个子块的 page_idx 字段,这些字段记录了原始的页码信息。你可以在二次开发或后处理阶段,将这些 page_idx 信息聚合为新字段,附加到最终表格对象中,便于后续追溯每段文本的真实来源页码。详细原理和代码细节可参考相关讨论和官方文档。如果只关心每页独立表格及页码,也可以通过设置环境变量 MINERU_TABLE_MERGE_ENABLE=0 关闭自动合并,保留每页独立表格及其页码,但需要手动拼接表格内容。 To reply, just mention @dosu. How did I do? Good | Irrelevant | Incorrect | Verbose | Hallucination | Report 🐛 | Other |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
当前mineru有跨页表格自动合并逻辑,导致跨页后的表格页码被合并到前一页,如何从解析结果中获取对应文本真实页码呢
Beta Was this translation helpful? Give feedback.
All reactions