Skip to content

Commit 86502d1

Browse files
authored
Merge pull request #239 from chaserRen/rzf-1030
fix:Layout Prompt
2 parents 68697ab + 80c7c74 commit 86502d1

File tree

3 files changed

+16
-22
lines changed

3 files changed

+16
-22
lines changed

dingo/model/prompt/prompt_layout_quality.py

Lines changed: 16 additions & 22 deletions
Original file line numberDiff line numberDiff line change
@@ -13,18 +13,17 @@ class PromptLayoutQuality(BasePrompt):
1313
}
1414
content = r"""
1515
# 角色
16-
你是一名严谨细致的布局检测模型专家,你的任务是审查一个布局检测模型的输出结果。由于没有标准的正确答案(Ground Truth),你需要运用你对通用文档结构、排版惯例和逻辑关系的深刻理解,来识别并标记模型预测中的所有错误。
16+
你是一名严谨细致的布局检测模型专家,你的任务是审查一个布局检测模型输出的蒙版图片,。由于没有标准的正确答案,你需要运用你对通用文档结构、排版惯例和逻辑关系的深刻理解,来识别并标记模型预测中的所有错误。
1717
1818
# 布局类别定义
1919
模型能够识别并输出的类别是固定的。在判断“类别错误”时,请以此处定义的类别为准。合法的类别包括:
2020
* **title (标题)**: 独立成行,在视觉上(如字体、字号、加粗)与正文有明显区别的各级标题。
2121
* **text (文本)**: 普通段落文本。每个自然段应对应一个边界框,每一个列表项也对应一个边界框。
2222
* **table (表格)**: 具有清晰行/列结构的数据或文本。结构简单的(如仅有几行几列且无标题)可被视为多个独立的`text`元素。
23-
* **figure (图片)**: 照片、插图、示意图等非统计性图表
23+
* **image (统计图表或图片)**: 柱状图、折线图、饼图等具有数学统计属性的图表。或者页面中的照片、插图、示意图等
2424
* **分割原则**: 如果图片内部有明显的空白分界线,应将其拆分为多个子图。
2525
* **文本密集型图片**: 若图片主要由文本构成(如无复杂流程的截图),应将其中的文本块标注为`text`。
26-
* **chart (统计图表)**: 柱状图、折线图、饼图等具有数学统计属性的图表。
27-
* **formula (公式)**: 单个独立成行的数学或化学公式,可以包含公式编号。
26+
* **equation (公式)**: 单个独立成行的数学或化学公式,可以包含公式编号。
2827
* **caption (图/表/代码标题)**: 位于图片、图表、表格或代码块上方或下方的标题或说明文字。
2928
* **footnote (图/表/代码注释)**: 位于图片、图表、表格或代码块下方的补充性注释文字。
3029
* **header (页眉)**: 页面顶部区域固定的、重复出现的内容,如章节名。
@@ -45,15 +44,12 @@ class PromptLayoutQuality(BasePrompt):
4544
# 错误类型定义
4645
在审核时,请重点关注以下几种基于视觉的错误:
4746
1. **检测遗漏错误**:页面上肉眼可见的、有明确意义的独立内容(如文本块、图片、表格等),但模型未能为其生成任何边界框。
48-
2. **检测不准错误**:检测不准确包括检测冗余、检测不完整、检测框重叠。检测冗余表示模型在**没有任何实际内容**的空白区域,或在不应被视为独立元素的装饰性图案/线条上,错误地生成了一个边界框。检测不完整表示元素的边界框过小,未能完整地包裹其全部视觉内容,导致部分内容(如文字笔画、图像边缘)被截断或遗漏在框外。**请注意:只要内容被完整包裹,边界框包含额外的空白区域是可以接受的,不应视为错误。**检测框重叠表示原本互不重叠的检测框重叠在了一起。
47+
2. **检测不准错误**:检测不准确包括检测冗余、检测不完整、检测框重叠。检测冗余表示模型在**没有任何实际内容**的空白区域,或在不应被视为独立元素的装饰性图案/线条上,错误地生成了一个边界框。检测不完整表示元素的边界框过小,未能完整地包裹其全部视觉内容,导致部分内容(如文字笔画、图像边缘)或者边界框过大,包含了过多的无效内容。**请注意:只要内容被完整包裹,边界框包含少量额外的空白区域是可以接受的,如果过多的空白则是错误的。**检测框重叠表示原本互不重叠的检测框重叠在了一起,具体表现为蒙版的颜色相对其他蒙版更深
4948
3. **类别错误**: 元素的类别(label)与其在图片上呈现的视觉功能不符。结合框内**文本内容、字体大小、粗细、颜色、排版位置(如居中、缩进)、以及它在整个页面布局中的作用**来综合判断。
5049
* **示例**:
5150
* 一个框内的文字是“第一章 绪论”,且字体显著大于正文、位置居中,但其`label`被标为`text`(文本),这应是`title`(标题)。
5251
* 一个明显是数据图表或照片的区域被错误地标记为`table`(表格)。
53-
4. **阅读顺序错误**:模型输出的元素ID顺序与文档内容的**自然阅读流**不一致。
54-
* **示例**:
55-
* 在一个双栏布局的页面上,左栏的段落ID为`[2, 4]`,右栏的段落ID为`[3, 5]`。这导致阅读顺序在两栏之间来回跳跃,而不是先读完左栏再读右栏。
56-
5. **其他错误**:用于标记所有未被上述明确类别覆盖,但明显不符合文档逻辑结构或排版常识的错误。这是一个“兜底”类别,旨在捕获模型预测中各种预料之外的异常情况。
52+
4. **阅读顺序错误**:模型输出的元素ID顺序与文档内容的**自然阅读流**不一致。注意只考虑检测出的元素的阅读顺序,未检测到的元素不考虑阅读顺序问题。
5753
5854
# 工作流程
5955
1. **全局审阅**: 首先快速浏览整张图片,对页面的整体布局、内容分区(如页眉、页脚、正文区、边栏)有一个大致的了解。
@@ -83,21 +79,15 @@ class PromptLayoutQuality(BasePrompt):
8379
},
8480
{
8581
"error_id": 2,
86-
"error_type": "元素类别错误",
87-
"error_location": "元素1在图片上显示为大号、加粗、居中的文本'第一章:系统概述',这是一个典型的章节标题,但被错误地标记为'text'。",
88-
"suggestion": "应将label修正为'title'"
89-
},
90-
{
91-
"error_id": 3,
92-
"error_type": "其他错误",
93-
"error_location": "这是一个合并错误。元素10将一个独立的图标题'图3:用户增长曲线'和其下方的图片本身错误地合并到了同一个边界框中。",
94-
"suggestion": "应将此元素拆分为两个独立的元素:一个label为'figure_caption'的标题元素,和一个label为'figure'的图片元素。"
95-
},
96-
{
97-
"error_id": 4,
9882
"error_type": "检测遗漏错误",
9983
"error_location": "页面上有两处明显的检测遗漏:1. 页面右上角的页眉 '财务报表' 未被检测。 2. 页面右下角的页脚 '2021年度报告 307' 未被检测。",
10084
"suggestion": "应为页眉和页脚分别添加新的边界框,并将其类别分别标记为 'header' 和 'footer'。"
85+
},
86+
{
87+
"error_id": 3,
88+
"error_type": "检测不准错误",
89+
"error_location": "页面上存在多处边界框检测不准确的问题:1. 元素8的边界框明显向左偏移,未能完整包裹其文本内容,导致文字右侧笔画被截断。 2. 元素24和元素28的边界框底部包含了过多的空白区域,属于冗余检测。",
90+
"suggestion": "应调整元素8的边界框位置,确保其紧密且完整地包裹该列文本。同时,应缩减元素24和28的边界框高度,以消除底部的多余空白区域。"
10191
}
10292
]
10393
}
@@ -118,7 +108,11 @@ class PromptLayoutQuality(BasePrompt):
118108
# 任务开始
119109
120110
## 输入信息
121-
1. **布局检测图**: [待提供的原始图像]
111+
1. **布局检测图**: [待提供的原始图像] 这是一张模型布局检测结果的可视化图片。图中的标注样式遵循以下规则:
112+
边界框 (Bounding Box): 每个被检测出的布局元素,都被一个红色的矩形边框所包围。
113+
内容蒙版 (Content Mask): 位于红色边界框内部的区域,都被灰色的半透明蒙版覆盖,用于将注意力集中在元素的边界和位置上。
114+
元素ID序号: 每个边界框的外部附近,都有一个数字序号,代表模型为该元素预测的ID,此ID通常也对应了其认定的阅读顺序。
115+
请特别注意:某些元素在原始文档中可能本身就带有背景色块或边框。这些同样是独立的布局元素。如果它们没有红色的边界框和ID序号,就意味着模型未能检测到它们,这同样构成检测遗漏。
122116
2. **元素属性列表**: 以下是模型为当前图片中每个ID预测的类别。请基于此列表和图片进行分析。
123117
{{ bbox_typr_list }}
124118
"""
-453 KB
Loading
-94.6 KB
Loading

0 commit comments

Comments
 (0)