MigoXLab
diff --git a/‎dingo/model/prompt/prompt_layout_quality.py‎
Lines changed: 16 additions & 22 deletions b/‎dingo/model/prompt/prompt_layout_quality.py‎
Lines changed: 16 additions & 22 deletions
diff --git a/‎test/data/layout_qualti_img/page-0f1dacaa-8917-4ca9-8ca0-fed1987a43da.jpg‎
-453 KB b/‎test/data/layout_qualti_img/page-0f1dacaa-8917-4ca9-8ca0-fed1987a43da.jpg‎
-453 KB
diff --git a/‎test/data/layout_qualti_img/page-18d8b4a0-f46b-4042-ba4f-b2e78e6c0844.jpg‎
-94.6 KB b/‎test/data/layout_qualti_img/page-18d8b4a0-f46b-4042-ba4f-b2e78e6c0844.jpg‎
-94.6 KB
@@ -13,18 +13,17 @@ class PromptLayoutQuality(BasePrompt):
     }
     content = r"""
     # 角色
-    你是一名严谨细致的布局检测模型专家，你的任务是审查一个布局检测模型的输出结果。由于没有标准的正确答案（Ground Truth），你需要运用你对通用文档结构、排版惯例和逻辑关系的深刻理解，来识别并标记模型预测中的所有错误。
+    你是一名严谨细致的布局检测模型专家，你的任务是审查一个布局检测模型输出的蒙版图片，。由于没有标准的正确答案，你需要运用你对通用文档结构、排版惯例和逻辑关系的深刻理解，来识别并标记模型预测中的所有错误。
 
     # 布局类别定义
     模型能够识别并输出的类别是固定的。在判断“类别错误”时，请以此处定义的类别为准。合法的类别包括：
     *   **title (标题)**: 独立成行，在视觉上（如字体、字号、加粗）与正文有明显区别的各级标题。
     *   **text (文本)**: 普通段落文本。每个自然段应对应一个边界框，每一个列表项也对应一个边界框。
     *   **table (表格)**: 具有清晰行/列结构的数据或文本。结构简单的（如仅有几行几列且无标题）可被视为多个独立的`text`元素。
-    *   **figure (图片)**: 照片、插图、示意图等非统计性图表。
+    *   **image (统计图表或图片)**: 柱状图、折线图、饼图等具有数学统计属性的图表。或者页面中的照片、插图、示意图等。
         *   **分割原则**: 如果图片内部有明显的空白分界线，应将其拆分为多个子图。
         *   **文本密集型图片**: 若图片主要由文本构成（如无复杂流程的截图），应将其中的文本块标注为`text`。
-    *   **chart (统计图表)**: 柱状图、折线图、饼图等具有数学统计属性的图表。
-    *   **formula (公式)**: 单个独立成行的数学或化学公式，可以包含公式编号。
+    *   **equation (公式)**: 单个独立成行的数学或化学公式，可以包含公式编号。
     *   **caption (图/表/代码标题)**: 位于图片、图表、表格或代码块上方或下方的标题或说明文字。
     *   **footnote (图/表/代码注释)**: 位于图片、图表、表格或代码块下方的补充性注释文字。
     *   **header (页眉)**: 页面顶部区域固定的、重复出现的内容，如章节名。
@@ -45,15 +44,12 @@ class PromptLayoutQuality(BasePrompt):
     # 错误类型定义
     在审核时，请重点关注以下几种基于视觉的错误：
     1.  **检测遗漏错误**:页面上肉眼可见的、有明确意义的独立内容（如文本块、图片、表格等），但模型未能为其生成任何边界框。
-    2.  **检测不准错误**：检测不准确包括检测冗余、检测不完整、检测框重叠。检测冗余表示模型在**没有任何实际内容**的空白区域，或在不应被视为独立元素的装饰性图案/线条上，错误地生成了一个边界框。检测不完整表示元素的边界框过小，未能完整地包裹其全部视觉内容，导致部分内容（如文字笔画、图像边缘）被截断或遗漏在框外。**请注意：只要内容被完整包裹，边界框包含额外的空白区域是可以接受的，不应视为错误。**检测框重叠表示原本互不重叠的检测框重叠在了一起。
+    2.  **检测不准错误**：检测不准确包括检测冗余、检测不完整、检测框重叠。检测冗余表示模型在**没有任何实际内容**的空白区域，或在不应被视为独立元素的装饰性图案/线条上，错误地生成了一个边界框。检测不完整表示元素的边界框过小，未能完整地包裹其全部视觉内容，导致部分内容（如文字笔画、图像边缘）或者边界框过大，包含了过多的无效内容。**请注意：只要内容被完整包裹，边界框包含少量额外的空白区域是可以接受的，如果过多的空白则是错误的。**检测框重叠表示原本互不重叠的检测框重叠在了一起，具体表现为蒙版的颜色相对其他蒙版更深。
     3.  **类别错误**: 元素的类别（label）与其在图片上呈现的视觉功能不符。结合框内**文本内容、字体大小、粗细、颜色、排版位置（如居中、缩进）、以及它在整个页面布局中的作用**来综合判断。
     *   **示例**:
         *   一个框内的文字是“第一章 绪论”，且字体显著大于正文、位置居中，但其`label`被标为`text`（文本），这应是`title`（标题）。
         *   一个明显是数据图表或照片的区域被错误地标记为`table`（表格）。
-    4.  **阅读顺序错误**:模型输出的元素ID顺序与文档内容的**自然阅读流**不一致。
-    *   **示例**:
-        *   在一个双栏布局的页面上，左栏的段落ID为`[2, 4]`，右栏的段落ID为`[3, 5]`。这导致阅读顺序在两栏之间来回跳跃，而不是先读完左栏再读右栏。
-    5.  **其他错误**:用于标记所有未被上述明确类别覆盖，但明显不符合文档逻辑结构或排版常识的错误。这是一个“兜底”类别，旨在捕获模型预测中各种预料之外的异常情况。
+    4.  **阅读顺序错误**:模型输出的元素ID顺序与文档内容的**自然阅读流**不一致。注意只考虑检测出的元素的阅读顺序，未检测到的元素不考虑阅读顺序问题。
 
     # 工作流程
     1.  **全局审阅**: 首先快速浏览整张图片，对页面的整体布局、内容分区（如页眉、页脚、正文区、边栏）有一个大致的了解。
@@ -83,21 +79,15 @@ class PromptLayoutQuality(BasePrompt):
             },
             {
                 "error_id": 2,
-                "error_type": "元素类别错误",
-                "error_location": "元素1在图片上显示为大号、加粗、居中的文本'第一章：系统概述'，这是一个典型的章节标题，但被错误地标记为'text'。",
-                "suggestion": "应将label修正为'title'"
-            },
-            {
-                "error_id": 3,
-                "error_type": "其他错误",
-                "error_location": "这是一个合并错误。元素10将一个独立的图标题'图3：用户增长曲线'和其下方的图片本身错误地合并到了同一个边界框中。",
-                "suggestion": "应将此元素拆分为两个独立的元素：一个label为'figure_caption'的标题元素，和一个label为'figure'的图片元素。"
-            },
-            {
-                "error_id": 4,
                 "error_type": "检测遗漏错误",
                 "error_location": "页面上有两处明显的检测遗漏：1. 页面右上角的页眉 '财务报表' 未被检测。 2. 页面右下角的页脚 '2021年度报告 307' 未被检测。",
                 "suggestion": "应为页眉和页脚分别添加新的边界框，并将其类别分别标记为 'header' 和 'footer'。"
+            },
+            {
+                "error_id": 3,
+                "error_type": "检测不准错误",
+                "error_location": "页面上存在多处边界框检测不准确的问题：1. 元素8的边界框明显向左偏移，未能完整包裹其文本内容，导致文字右侧笔画被截断。 2. 元素24和元素28的边界框底部包含了过多的空白区域，属于冗余检测。",
+                "suggestion": "应调整元素8的边界框位置，确保其紧密且完整地包裹该列文本。同时，应缩减元素24和28的边界框高度，以消除底部的多余空白区域。"
             }
         ]
     }
@@ -118,7 +108,11 @@ class PromptLayoutQuality(BasePrompt):
     # 任务开始
 
     ## 输入信息
-    1.  **布局检测图**: [待提供的原始图像]
+    1.  **布局检测图**: [待提供的原始图像] 这是一张模型布局检测结果的可视化图片。图中的标注样式遵循以下规则：
+        边界框 (Bounding Box): 每个被检测出的布局元素，都被一个红色的矩形边框所包围。
+        内容蒙版 (Content Mask): 位于红色边界框内部的区域，都被灰色的半透明蒙版覆盖，用于将注意力集中在元素的边界和位置上。
+        元素ID序号: 每个边界框的外部附近，都有一个数字序号，代表模型为该元素预测的ID，此ID通常也对应了其认定的阅读顺序。
+        请特别注意：某些元素在原始文档中可能本身就带有背景色块或边框。这些同样是独立的布局元素。如果它们没有红色的边界框和ID序号，就意味着模型未能检测到它们，这同样构成检测遗漏。
     2.  **元素属性列表**: 以下是模型为当前图片中每个ID预测的类别。请基于此列表和图片进行分析。
     {{ bbox_typr_list }}
     """