SER进行推理预测后，只能将图片一部分的实体进行识别，后面的实体都会标注为other #14959

eunij-peanut · 2025-03-19T01:06:21Z

eunij-peanut
Mar 19, 2025

🔎 Search before asking

I have searched the PaddleOCR Docs and found no similar bug report.
I have searched the PaddleOCR Issues and found no similar bug report.
I have searched the PaddleOCR Discussions and found no similar bug report.

🐛 Bug (问题描述)

SER进行推理预测后，只能将图片一部分的实体进行识别，后面的实体都会标注为other，在过往的issue里有类似的问题，请问该如何修改代码得到全部的序列？

🏃‍♂️ Environment (运行环境)

硬件信息
CPU:
2核
AI加速卡:
Tesla V100-SXM2-32GB
总显存:
16 GB
总内存:
16 GB
总硬盘:
100 GB
环境配置
Python:
3.10.10
框架信息
PaddlePaddle 2.5.2
paddlenlp 2.5.2
PaddleOCR release-2.8

🌰 Minimal Reproducible Example (最小可复现问题的Demo)

nothing

GreatV · 2025-03-31T03:46:12Z

GreatV
Mar 31, 2025
Maintainer

针对你提出的 SER（结构化实体识别）推理后只能识别图像部分实体，其余都标注为 other 的问题，根据你提供的描述及参考的 Issue（https://github.com/PaddlePaddle/PaddleOCR/issues/14275），以下是可能的原因及对应的改进建议：

🔍 问题原因分析：

序列长度截断（Sequence Truncation）

SER 模型依赖于 Transformer 编码器（如 LayoutXLM），该类模型有最大输入长度限制（如512 tokens）。如果图片信息在 token 编码后超过最大长度，则超出的部分会被截断，导致后部实体被丢弃或识别为 other。

⮕ 判断依据：你提到“前面部分可以识别，但后面都为 other”，同时 SER 所使用的模型如 LayoutXLM、LayoutLMv2 等都存在这种问题。

数据分词方式/排序问题

在构建 SER 输入时，若文本块顺序未优化或不符合横向纵向文档排布（如未根据 layout 对 box 进行合理排序），可能导致信息无效利用，一部分 token 被序列长度限制截断。

SER 指定的字典或标签未覆盖

如果类别标签（class_list_xfun.txt）未包含全部实体类型，新增的实体也可能被标注为 other。你可以检查 ser_dict_path 对应的文件确认。

OCR 检测阶段漏检

也可能是 OCR 的 box/rec 阶段未准确地识别全部文本区域，从而影响后续 KIE 模型。你可以打印 OCR 结果（boxes + texts）确认有无遗漏。

✅ 解决方案建议：

方案一：优化输入顺序 & 提前截断无效文本

检查 ppstructure/kie/loader.py 中文本框排序代码，确保框顺序符合从上至下、从左至右的结构布局。
修改 tokenize 脚本，在超出自动截断之前人为去除置信度较低、罕见 label 的 token，可保留更多有效实体。

方案二：换用长文档支持模型（高级）

LayoutXLM 等模型对输入长度依赖固定限制，是此类问题的根源。你可以尝试替换为支持更长文本输入的结构，例如：
- LayoutXLM + Longformer/BERT-LONG
- 分段建图输入，分批预测后合并

但这需要对底层代码做出一定深度修改。

方案三：改为多段式处理

将长文档图片按照逻辑区域手动或自动裁剪为多个小图，每个大约5~10个文本框。逐段送入 SER 模型处理后拼接预测结果。
这可以比较容易在不改动模型结构的前提下，显著提升 recall。

方案四：升级 PaddleOCR 版本

你当前使用的是 2.8 版本（release-2.8），建议升级至至少 2.9 或 2.10，修复过一些相关文本截断处理逻辑。如由 OCR 底层处理造成的 box 丢失问题，可能已在新版中优化。

🛠️ 附加建议设置：

检查参数 use_visual_backbone 是否为 True（你已启用）。
设置 kie_algorithm 为 LayoutXLM 且加载正确的 ser_model_dir。
尝试增加 max_seq_len，例如修改 tokenization/encode 函数相关参数（需确认模型支持）。

🔗 参考：

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

SER进行推理预测后，只能将图片一部分的实体进行识别，后面的实体都会标注为other #14959

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

SER进行推理预测后，只能将图片一部分的实体进行识别，后面的实体都会标注为other #14959

Uh oh!

eunij-peanut Mar 19, 2025

🔎 Search before asking

🐛 Bug (问题描述)

🏃‍♂️ Environment (运行环境)

🌰 Minimal Reproducible Example (最小可复现问题的Demo)

Replies: 1 comment

Uh oh!

GreatV Mar 31, 2025 Maintainer

eunij-peanut
Mar 19, 2025

GreatV
Mar 31, 2025
Maintainer