|
| 1 | +from dingo.model.model import Model |
| 2 | +from dingo.model.prompt.base import BasePrompt |
| 3 | + |
| 4 | + |
| 5 | +@Model.prompt_register("PromptMinerURecognizeQuality", [], []) |
| 6 | +class PromptMinerURecognizeQuality(BasePrompt): |
| 7 | + """ |
| 8 | + Metadata for documentation generation |
| 9 | + """ |
| 10 | + _metric_info = { |
| 11 | + "category": "OCR Eval Metric", |
| 12 | + "metric_name": "MinerURecognizeQuality", |
| 13 | + "description": "Evaluate the quality of mineru recognize", |
| 14 | + "evaluation_results": "error_category and error_label", |
| 15 | + } |
| 16 | + content = r""" |
| 17 | +你是一位熟悉文档解析领域的质量专家,你的核心任务是根据正确的markdown"工具标准结果Markdown",以及对应OCR工具预测结果"Pred的内容",获取工具预测结果的错误类型。 |
| 18 | +*错误类别和标签* |
| 19 | +以下是你可以使用的错误类别和对应的标签。在输出的JSON中,"error_category"字段应填写问题大类(如:公式识别相关问题),"error_label"字段应填写问题子类(如:公式中字符识别错误)。 |
| 20 | +**1.公式识别相关问题** |
| 21 | + - 公式字符识别错误:公式渲染正确,但识别错误 |
| 22 | + - 公式内容模型输出重复 |
| 23 | +**2.表格识别相关问题** |
| 24 | + - 表格输出格式错误:输出otsl格式有误导致转换失败 |
| 25 | + - 表格结构错误:结构造成的内容丢失也算在里面 |
| 26 | + - 表格内容错误:结构是对的,仅文本错 |
| 27 | + - 表格内容模型输出重复 |
| 28 | +**3. 分行分段相关问题** |
| 29 | + - 非跨栏内容段落粘连: 原本不同段落的文本,在OCR结果中被错误地合并成一个段落。 |
| 30 | + - 段落异常拆分: 原本完整的一个段落,在OCR结果中被错误地分割成了多个段落的文本。 |
| 31 | +**4.列表相关问题** |
| 32 | + -列表项异常合并/粘连: 原图中文档中的独立的列表项(有序列表和无序列表,或者(1)、(2)...样式的列表)、参考文献被合并成一行。可能是多个项合并成一项,或列表项与前后文本合并。 |
| 33 | +**5.标题相关问题** |
| 34 | + -标题格式丢失: 原文件中的标题,在OCR结果中被识别为普通文本,丢失了标题应有的Markdown格式(如#)。 |
| 35 | + -标题分级错误: 原图中的标题被识别,但其层级(如H1, H2)与原图不符,包括层级识别错误(如一级标题识别为二级)。 |
| 36 | +**5.OCR识别问题** |
| 37 | + - 字符识别错误:文本、标题、列表类型等文本内容识别错误。 |
| 38 | +**6.其他** |
| 39 | + -其他问题: 此分类用于标记不属于上述任何具体类别的其他OCR质量问题。经过仔细判断后确认无法归入其他既有标签的OCR质量问题。 |
| 40 | +
|
| 41 | +*输出格式* |
| 42 | + 请严格按照以下JSON结构组织你的发现: |
| 43 | + ```json |
| 44 | + { |
| 45 | + "errors": [ |
| 46 | + { |
| 47 | + "bbox_id": "1", //原图中的bbox序号 |
| 48 | + "bbox_type": "equation", //图中的bbox类型 |
| 49 | + "error_category": "公式识别相关问题", // 错误的大类 |
| 50 | + "error_label": "公式中字符识别错误", // 从上面的《错误类别和标签》列表中选取的一个具体的二级标签 |
| 51 | + }, |
| 52 | + { |
| 53 | + "bbox_id": "2", |
| 54 | + "bbox_type": "table", //图中的bbox类型 |
| 55 | + "error_category": "表格识别相关问题", |
| 56 | + "error_label": "表格输出格式错误" |
| 57 | + }, |
| 58 | + { |
| 59 | + "bbox_id": "3", |
| 60 | + // ... 更多按 error_label 汇总的错误 |
| 61 | + } |
| 62 | + ] |
| 63 | + } |
| 64 | + ``` |
| 65 | + *工作流程:* |
| 66 | + 1. 接收并理解 **工具标准结果Markdown** 和 **Pred的内容**。 |
| 67 | + 2. 仔细比对两者,识别所有内容和格式上的差异。 |
| 68 | + 3. 根据 **错误类别和标签** 对每个差异进行分类。 |
| 69 | + 4. 记录每个错误的信息(错误类别、错误标签)。如果同一位置存在多个独立的错误,请在 errors 列表内分别列出,不要再堆叠。 |
| 70 | + 5. 按照指定的 **输出格式** 生成 JSON 报告 |
| 71 | + ``` |
| 72 | + *输入:* |
| 73 | + * **工具标准结果Markdown:** |
| 74 | + * **Pred的内容:** |
| 75 | + *输出:* |
| 76 | + ```json |
| 77 | + [请在此处提供你的JSON分析结果, 注意仅输出json,不要输出任何解释] |
| 78 | + ``` |
| 79 | + """ |
0 commit comments