Skip to content
Discussion options

You must be logged in to vote

针对您的问题,以下是详细解答:

1. 关于PPOCRLabel的标注问题

PPOCRLabel 是 PaddleOCR 提供的一款标注工具,支持检测任务和识别任务的标注。对于无线表格数据的标注,需要特别关注以下点:

1.1 标注的文本行检测框(红框)

红框是用于检测文本行的框(即文本检测任务的目标)。根据您提到的需求,标注时红框应尽量框住文本行的实际范围,而不是扩展到单元格的实际表格位置。如果扩展到单元格位置,可能会导致模型的检测精度下降,因为检测任务的目标是定位文本,而不是表格区域。

1.2 标注的单元格检测框(绿框)

绿框用于标注单元格检测框(即单元格定位任务)。标注时需要注意:

  • 框住单元格的实际表格位置,即包括单元格内的空白区域,而不仅仅是框住单元格中的文本部分。
  • 单元格检测框的标注尽量与实际表格的边界对齐,否则训练的模型可能无法准确检测到单元格。

2. 关于无线表格下方空白区域的处理

无线表格下方可能存在较大的空白区域,这些空白区域在标注时的处理方式如下:

2.1 如果空白区域属于表格的一部分

例如,空白区域是单元格的内容(即单元格没有文本内容),则在标注时需要将该空白区域框进对应的单元格检测框(绿框)内。这样可以确保模型能够准确检测到该单元格。

2.2 如果空白区域不属于表格范围

例如,空白区域是表格之外的空白背景,则不需要对这些区域进行标注。这些区域可以忽略。

3. 针对模型实际测试效果差的改进建议

根据您提到的情况,模型在训练集上的精度(Acc)达到了 92+,但在实际测试中效果较差。这可能是由于数据分布不一致或标注方式存在问题导致的。以下是改进建议:

3…

Replies: 1 comment 3 replies

Comment options

You must be logged in to vote
3 replies
@hurong1214
Comment options

@GreatV
Comment options

@hurong1214
Comment options

Answer selected by gokamisama
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Category
Q&A
Labels
None yet
3 participants