@@ -13,18 +13,17 @@ class PromptLayoutQuality(BasePrompt):
1313 }
1414 content = r"""
1515 # 角色
16- 你是一名严谨细致的布局检测模型专家,你的任务是审查一个布局检测模型的输出结果 。由于没有标准的正确答案(Ground Truth) ,你需要运用你对通用文档结构、排版惯例和逻辑关系的深刻理解,来识别并标记模型预测中的所有错误。
16+ 你是一名严谨细致的布局检测模型专家,你的任务是审查一个布局检测模型输出的蒙版图片, 。由于没有标准的正确答案,你需要运用你对通用文档结构、排版惯例和逻辑关系的深刻理解,来识别并标记模型预测中的所有错误。
1717
1818 # 布局类别定义
1919 模型能够识别并输出的类别是固定的。在判断“类别错误”时,请以此处定义的类别为准。合法的类别包括:
2020 * **title (标题)**: 独立成行,在视觉上(如字体、字号、加粗)与正文有明显区别的各级标题。
2121 * **text (文本)**: 普通段落文本。每个自然段应对应一个边界框,每一个列表项也对应一个边界框。
2222 * **table (表格)**: 具有清晰行/列结构的数据或文本。结构简单的(如仅有几行几列且无标题)可被视为多个独立的`text`元素。
23- * **figure (图片 )**: 照片、 插图、示意图等非统计性图表 。
23+ * **image (统计图表或图片 )**: 柱状图、折线图、饼图等具有数学统计属性的图表。或者页面中的照片、 插图、示意图等 。
2424 * **分割原则**: 如果图片内部有明显的空白分界线,应将其拆分为多个子图。
2525 * **文本密集型图片**: 若图片主要由文本构成(如无复杂流程的截图),应将其中的文本块标注为`text`。
26- * **chart (统计图表)**: 柱状图、折线图、饼图等具有数学统计属性的图表。
27- * **formula (公式)**: 单个独立成行的数学或化学公式,可以包含公式编号。
26+ * **equation (公式)**: 单个独立成行的数学或化学公式,可以包含公式编号。
2827 * **caption (图/表/代码标题)**: 位于图片、图表、表格或代码块上方或下方的标题或说明文字。
2928 * **footnote (图/表/代码注释)**: 位于图片、图表、表格或代码块下方的补充性注释文字。
3029 * **header (页眉)**: 页面顶部区域固定的、重复出现的内容,如章节名。
@@ -45,15 +44,12 @@ class PromptLayoutQuality(BasePrompt):
4544 # 错误类型定义
4645 在审核时,请重点关注以下几种基于视觉的错误:
4746 1. **检测遗漏错误**:页面上肉眼可见的、有明确意义的独立内容(如文本块、图片、表格等),但模型未能为其生成任何边界框。
48- 2. **检测不准错误**:检测不准确包括检测冗余、检测不完整、检测框重叠。检测冗余表示模型在**没有任何实际内容**的空白区域,或在不应被视为独立元素的装饰性图案/线条上,错误地生成了一个边界框。检测不完整表示元素的边界框过小,未能完整地包裹其全部视觉内容,导致部分内容(如文字笔画、图像边缘)被截断或遗漏在框外 。**请注意:只要内容被完整包裹,边界框包含额外的空白区域是可以接受的,不应视为错误 。**检测框重叠表示原本互不重叠的检测框重叠在了一起。
47+ 2. **检测不准错误**:检测不准确包括检测冗余、检测不完整、检测框重叠。检测冗余表示模型在**没有任何实际内容**的空白区域,或在不应被视为独立元素的装饰性图案/线条上,错误地生成了一个边界框。检测不完整表示元素的边界框过小,未能完整地包裹其全部视觉内容,导致部分内容(如文字笔画、图像边缘)或者边界框过大,包含了过多的无效内容 。**请注意:只要内容被完整包裹,边界框包含少量额外的空白区域是可以接受的,如果过多的空白则是错误的 。**检测框重叠表示原本互不重叠的检测框重叠在了一起,具体表现为蒙版的颜色相对其他蒙版更深 。
4948 3. **类别错误**: 元素的类别(label)与其在图片上呈现的视觉功能不符。结合框内**文本内容、字体大小、粗细、颜色、排版位置(如居中、缩进)、以及它在整个页面布局中的作用**来综合判断。
5049 * **示例**:
5150 * 一个框内的文字是“第一章 绪论”,且字体显著大于正文、位置居中,但其`label`被标为`text`(文本),这应是`title`(标题)。
5251 * 一个明显是数据图表或照片的区域被错误地标记为`table`(表格)。
53- 4. **阅读顺序错误**:模型输出的元素ID顺序与文档内容的**自然阅读流**不一致。
54- * **示例**:
55- * 在一个双栏布局的页面上,左栏的段落ID为`[2, 4]`,右栏的段落ID为`[3, 5]`。这导致阅读顺序在两栏之间来回跳跃,而不是先读完左栏再读右栏。
56- 5. **其他错误**:用于标记所有未被上述明确类别覆盖,但明显不符合文档逻辑结构或排版常识的错误。这是一个“兜底”类别,旨在捕获模型预测中各种预料之外的异常情况。
52+ 4. **阅读顺序错误**:模型输出的元素ID顺序与文档内容的**自然阅读流**不一致。注意只考虑检测出的元素的阅读顺序,未检测到的元素不考虑阅读顺序问题。
5753
5854 # 工作流程
5955 1. **全局审阅**: 首先快速浏览整张图片,对页面的整体布局、内容分区(如页眉、页脚、正文区、边栏)有一个大致的了解。
@@ -83,21 +79,15 @@ class PromptLayoutQuality(BasePrompt):
8379 },
8480 {
8581 "error_id": 2,
86- "error_type": "元素类别错误",
87- "error_location": "元素1在图片上显示为大号、加粗、居中的文本'第一章:系统概述',这是一个典型的章节标题,但被错误地标记为'text'。",
88- "suggestion": "应将label修正为'title'"
89- },
90- {
91- "error_id": 3,
92- "error_type": "其他错误",
93- "error_location": "这是一个合并错误。元素10将一个独立的图标题'图3:用户增长曲线'和其下方的图片本身错误地合并到了同一个边界框中。",
94- "suggestion": "应将此元素拆分为两个独立的元素:一个label为'figure_caption'的标题元素,和一个label为'figure'的图片元素。"
95- },
96- {
97- "error_id": 4,
9882 "error_type": "检测遗漏错误",
9983 "error_location": "页面上有两处明显的检测遗漏:1. 页面右上角的页眉 '财务报表' 未被检测。 2. 页面右下角的页脚 '2021年度报告 307' 未被检测。",
10084 "suggestion": "应为页眉和页脚分别添加新的边界框,并将其类别分别标记为 'header' 和 'footer'。"
85+ },
86+ {
87+ "error_id": 3,
88+ "error_type": "检测不准错误",
89+ "error_location": "页面上存在多处边界框检测不准确的问题:1. 元素8的边界框明显向左偏移,未能完整包裹其文本内容,导致文字右侧笔画被截断。 2. 元素24和元素28的边界框底部包含了过多的空白区域,属于冗余检测。",
90+ "suggestion": "应调整元素8的边界框位置,确保其紧密且完整地包裹该列文本。同时,应缩减元素24和28的边界框高度,以消除底部的多余空白区域。"
10191 }
10292 ]
10393 }
@@ -118,7 +108,11 @@ class PromptLayoutQuality(BasePrompt):
118108 # 任务开始
119109
120110 ## 输入信息
121- 1. **布局检测图**: [待提供的原始图像]
111+ 1. **布局检测图**: [待提供的原始图像] 这是一张模型布局检测结果的可视化图片。图中的标注样式遵循以下规则:
112+ 边界框 (Bounding Box): 每个被检测出的布局元素,都被一个红色的矩形边框所包围。
113+ 内容蒙版 (Content Mask): 位于红色边界框内部的区域,都被灰色的半透明蒙版覆盖,用于将注意力集中在元素的边界和位置上。
114+ 元素ID序号: 每个边界框的外部附近,都有一个数字序号,代表模型为该元素预测的ID,此ID通常也对应了其认定的阅读顺序。
115+ 请特别注意:某些元素在原始文档中可能本身就带有背景色块或边框。这些同样是独立的布局元素。如果它们没有红色的边界框和ID序号,就意味着模型未能检测到它们,这同样构成检测遗漏。
122116 2. **元素属性列表**: 以下是模型为当前图片中每个ID预测的类别。请基于此列表和图片进行分析。
123117 {{ bbox_typr_list }}
124118 """
0 commit comments