微调ch_ppstructure_mobile_v2.0_SLANet_train表格识别模型的数据该如何处理和标注？ #14288

gokamisama · 2024-11-28T02:00:36Z

gokamisama
Nov 28, 2024

我主要是做发票上的无线表格识别，最初的标注方式是下图所示：

准备了230张数据微调测试效果，最终训练的acc再92+，但是实际测试效果很差，测试如下：

ps：红框为det文本行检测框，绿框是cell检测框

所以针对针对这些无线表格的数据，我有以下几点疑问，希望能够得到解答：

PPOCRLabel的表格标注其实是文本行检测，在标注无线表格的cell时是保持框住文本即可，还是需要调整到cell实际表格的位置
无线表格下方可能会有一大片空白区域，这部分区域标注时需要处理吗

Answered by GreatV

Nov 30, 2024

针对您的问题，以下是详细解答：

1. 关于PPOCRLabel的标注问题

PPOCRLabel 是 PaddleOCR 提供的一款标注工具，支持检测任务和识别任务的标注。对于无线表格数据的标注，需要特别关注以下点：

1.1 标注的文本行检测框（红框）

红框是用于检测文本行的框（即文本检测任务的目标）。根据您提到的需求，标注时红框应尽量框住文本行的实际范围，而不是扩展到单元格的实际表格位置。如果扩展到单元格位置，可能会导致模型的检测精度下降，因为检测任务的目标是定位文本，而不是表格区域。

1.2 标注的单元格检测框（绿框）

绿框用于标注单元格检测框（即单元格定位任务）。标注时需要注意：

框住单元格的实际表格位置，即包括单元格内的空白区域，而不仅仅是框住单元格中的文本部分。
单元格检测框的标注尽量与实际表格的边界对齐，否则训练的模型可能无法准确检测到单元格。

2. 关于无线表格下方空白区域的处理

无线表格下方可能存在较大的空白区域，这些空白区域在标注时的处理方式如下：

2.1 如果空白区域属于表格的一部分

例如，空白区域是单元格的内容（即单元格没有文本内容），则在标注时需要将该空白区域框进对应的单元格检测框（绿框）内。这样可以确保模型能够准确检测到该单元格。

2.2 如果空白区域不属于表格范围

例如，空白区域是表格之外的空白背景，则不需要对这些区域进行标注。这些区域可以忽略。

3. 针对模型实际测试效果差的改进建议

根据您提到的情况，模型在训练集上的精度（Acc）达到了 92+，但在实际测试中效果较差。这可能是由于数据分布不一致或标注方式存在问题导致的。以下是改进建议：

3…

View full answer

GreatV · 2024-11-30T03:12:06Z

GreatV
Nov 30, 2024
Maintainer

针对您的问题，以下是详细解答：

1. 关于PPOCRLabel的标注问题

PPOCRLabel 是 PaddleOCR 提供的一款标注工具，支持检测任务和识别任务的标注。对于无线表格数据的标注，需要特别关注以下点：

1.1 标注的文本行检测框（红框）

红框是用于检测文本行的框（即文本检测任务的目标）。根据您提到的需求，标注时红框应尽量框住文本行的实际范围，而不是扩展到单元格的实际表格位置。如果扩展到单元格位置，可能会导致模型的检测精度下降，因为检测任务的目标是定位文本，而不是表格区域。

1.2 标注的单元格检测框（绿框）

绿框用于标注单元格检测框（即单元格定位任务）。标注时需要注意：

框住单元格的实际表格位置，即包括单元格内的空白区域，而不仅仅是框住单元格中的文本部分。
单元格检测框的标注尽量与实际表格的边界对齐，否则训练的模型可能无法准确检测到单元格。

2. 关于无线表格下方空白区域的处理

无线表格下方可能存在较大的空白区域，这些空白区域在标注时的处理方式如下：

2.1 如果空白区域属于表格的一部分

例如，空白区域是单元格的内容（即单元格没有文本内容），则在标注时需要将该空白区域框进对应的单元格检测框（绿框）内。这样可以确保模型能够准确检测到该单元格。

2.2 如果空白区域不属于表格范围

例如，空白区域是表格之外的空白背景，则不需要对这些区域进行标注。这些区域可以忽略。

3. 针对模型实际测试效果差的改进建议

根据您提到的情况，模型在训练集上的精度（Acc）达到了 92+，但在实际测试中效果较差。这可能是由于数据分布不一致或标注方式存在问题导致的。以下是改进建议：

3.1 数据分布一致性

确保训练数据和实际测试数据的分布一致。如果实际测试数据的表格形式、背景、分辨率等特性与训练数据差异较大，模型的泛化能力会受到影响。可以通过以下方式改进：

收集更多样化的训练数据，包括不同背景、不同分辨率、不同表格样式的数据。
利用数据增强技术（如随机旋转、缩放、加噪等）生成多样化的训练数据。

3.2 标注一致性

确保标注规则在整个数据集（训练集和测试集）中严格统一。如果训练集的标注和实际测试集的标注规则不一致，例如红框或绿框的标注范围不同，可能会导致模型预测效果不佳。

3.3 模型微调

在已有的预训练模型基础上，用您的表格数据进行微调训练。微调时可以适当降低学习率，避免模型过拟合。

3.4 调整后处理参数

在实际测试时，您提到的红框和绿框可能存在检测效果差的问题，可以尝试调整以下参数：

det_db_box_thresh：用于控制文本行检测框的过滤阈值。可以适当降低该值以减少漏检。
det_db_unclip_ratio：用于控制检测框的扩展比例。如果检测框过于紧凑，可以适当增大该值。
cell_box_thresh：用于控制单元格检测框的过滤阈值。

3.5 模型评估与分析

在实际测试时，使用可视化工具将检测框（红框和绿框）与识别结果叠加到原始图像上，分析模型的错误来源（如检测错误、识别错误或匹配问题）。根据错误类型调整模型或标注方式。

总结

红框（文本行检测框）：标注时应框住文本行的实际范围。
绿框（单元格检测框）：标注时应框住单元格的实际表格位置，包括空白区域。
无线表格下方空白区域：如果属于单元格内容，应标注；否则可以忽略。
针对测试效果差的问题，通过数据分布一致性、标注一致性、模型微调和参数调整等方式进行改进。

如果仍有疑问，可进一步详细描述您的场景，我们将为您提供更有针对性的建议。

Response generated by 🤖 feifei-bot | chatgpt-4o-latest

3 replies

hurong1214 Dec 26, 2025

@GreatV 您好，想请问一下RT-DETR-L_wired_table_cell_det表格单元格检测模型数据的标注也是按照以上原则么，我看官方demo标注数据很规整，是用线来标注的么，我不用线用矩形框去标可以么

GreatV Dec 26, 2025
Maintainer

@hurong1214 用框标注

hurong1214 Dec 26, 2025

@GreatV 我看官方demo标注数据很规整，是用线来标注的么，我不用线用矩形框去标这样会有误差，肯定不如demo里标的那么对齐，这个影响大么

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

微调ch_ppstructure_mobile_v2.0_SLANet_train表格识别模型的数据该如何处理和标注？ #14288

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 3 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

微调ch_ppstructure_mobile_v2.0_SLANet_train表格识别模型的数据该如何处理和标注？ #14288

Uh oh!

gokamisama Nov 28, 2024

1. 关于PPOCRLabel的标注问题

1.1 标注的文本行检测框（红框）

1.2 标注的单元格检测框（绿框）

2. 关于无线表格下方空白区域的处理

2.1 如果空白区域属于表格的一部分

2.2 如果空白区域不属于表格范围

3. 针对模型实际测试效果差的改进建议

3…

Replies: 1 comment · 3 replies

Uh oh!

GreatV Nov 30, 2024 Maintainer

1. 关于PPOCRLabel的标注问题

1.1 标注的文本行检测框（红框）

1.2 标注的单元格检测框（绿框）

2. 关于无线表格下方空白区域的处理

2.1 如果空白区域属于表格的一部分

2.2 如果空白区域不属于表格范围

3. 针对模型实际测试效果差的改进建议

3.1 数据分布一致性

3.2 标注一致性

3.3 模型微调

3.4 调整后处理参数

3.5 模型评估与分析

总结

Uh oh!

hurong1214 Dec 26, 2025

Uh oh!

GreatV Dec 26, 2025 Maintainer

Uh oh!

hurong1214 Dec 26, 2025

gokamisama
Nov 28, 2024

Replies: 1 comment 3 replies

GreatV
Nov 30, 2024
Maintainer

GreatV Dec 26, 2025
Maintainer