pdf中表格的某一行，因为分页被分成了两行，识别错误 #16406

Ying-Kang · 2025-08-24T05:04:20Z

Ying-Kang
Aug 24, 2025

如题，

pdf中表格的某一行，因为分页被分成了两行，识别错误
我的这个bad case中，
每一行都有序号索引，当前索引3的行，因为单行过长被截断分页到新的一页的关系，被识别为索引4的行了

这种情况可以通过调整参数，或者更换模型解决吗？还是现阶段的模型无法解决这种case
如果可以通过参数调整，麻烦给个示例，感谢

paddle==3.0
cuda==12.1
python==3.10

output = self.pipeline.predict(input=file_path)

SWHL · 2025-09-06T13:53:30Z

这种需要后处理拼接，或者送入模型前就拼一下。现在逻辑是送入模型的是PDF的一页一页的。

0 replies