Merge pull request #221 from seancoding-day/dev

e06084 · web-flow · commit 45bab2859706 · 2025-10-21T16:19:28.000+08:00
feat: 1. add VLM explanation; 2. update image format in messages; 3. update image dataset
diff --git a/dingo/model/llm/vlm_image_relevant.py b/dingo/model/llm/vlm_image_relevant.py
@@ -1,3 +1,5 @@
+import base64
+import os
 from typing import List
 
 from dingo.io import Data
@@ -10,15 +12,65 @@
 class VLMImageRelevant(BaseOpenAI):
     prompt = PromptImageRelevant
 
+    @classmethod
+    def _encode_image(cls, image_path: str) -> str:
+        """
+        Encode a local image file to base64 data URL format.
+        If the input is already a URL, return it as is.
+
+        This method follows Python's standard path resolution:
+        - Relative paths are resolved relative to the current working directory
+        - Absolute paths are used as-is
+        - URLs (http://, https://, data:) are passed through unchanged
+
+        Args:
+            image_path: Local file path (absolute or relative) or URL
+
+        Returns:
+            Base64 data URL for local files, or original URL for web resources
+
+        Raises:
+            FileNotFoundError: If a local file path does not exist
+            RuntimeError: If the file cannot be read
+        """
+        # Pass through URLs unchanged
+        if image_path.startswith(('http://', 'https://', 'data:')):
+            return image_path
+
+        # Standard file path handling (relative or absolute)
+        if not os.path.isfile(image_path):
+            raise FileNotFoundError(
+                f"Image file not found: '{image_path}'\n"
+                f"Current working directory: {os.getcwd()}\n"
+                f"Absolute path would be: {os.path.abspath(image_path)}\n"
+                f"Ensure the path is correct relative to your current working directory."
+            )
+
+        try:
+            with open(image_path, "rb") as image_file:
+                base64_image = base64.b64encode(image_file.read()).decode('utf-8')
+                # Determine MIME type from file extension
+                ext = os.path.splitext(image_path)[1].lower()
+                mime_type = 'image/jpeg' if ext in ['.jpg', '.jpeg'] else f'image/{ext[1:]}'
+                return f"data:{mime_type};base64,{base64_image}"
+        except Exception as e:
+            raise RuntimeError(
+                f"Failed to read image file '{image_path}': {e}"
+            )
+
     @classmethod
     def build_messages(cls, input_data: Data) -> List:
+        # Encode images if they are local file paths
+        image_url_1 = cls._encode_image(input_data.prompt)
+        image_url_2 = cls._encode_image(input_data.content)
+
         messages = [
             {
                 "role": "user",
                 "content": [
                     {"type": "text", "text": cls.prompt.content},
-                    {"type": "image_url", "image_url": {"url": input_data.prompt}},
-                    {"type": "image_url", "image_url": {"url": input_data.content}},
+                    {"type": "image_url", "image_url": {"url": image_url_1}},
+                    {"type": "image_url", "image_url": {"url": image_url_2}},
                 ],
             }
         ]
diff --git a/dingo/model/prompt/prompt_image_relevant.py b/dingo/model/prompt/prompt_image_relevant.py
@@ -9,16 +9,37 @@ class PromptImageRelevant(BasePrompt):
     _metric_info = {
         "category": "Multimodality Assessment Metrics",
         "metric_name": "PromptImageRelevant",
-        "description": "Evaluates if an image matches reference image in terms of face count, feature details, and visual elements",
+        "description": "Evaluates image consistency and relevance through comprehensive analysis of content, semantics, visual quality, and detail fidelity",
         "evaluation_results": ""
     }
 
-    content = """
-    作为一款专业的图片检测AI工具，请结合第一张图评估第二张图片是否符合标准。请先分析第一张图片，包括背景信息、人脸数量、以及每个人物的脸部和手部特征。
-    然后根据以下标准对第二张图片进行评分：\n
-    1. 图片中的人脸数量是否与第一张图片一致；\n
-    2. 每个人物的脸部和手部是否变形；\n
-    3. 如果第一张图片中有国旗标志，则判断第二张图片中的国旗标志颜色和形状是否一致。\n
-    只要存在一处不符合，即不通过。评分0表示不通过，1表示通过。\n
-    请只输出评分和理由，输出格式为json，模版为{"score": xxx, "reason": "xxx"}。\n
-    """
+    content = """你是一个专业的图像对比分析系统。请对比分析两张图片的一致性和相关性。
+
+【分析步骤】
+1. 第一张图片分析
+   仔细观察并记录第一张图片的核心内容：
+   - 主要对象（人物、物体、场景）
+   - 视觉元素（颜色、构图、风格）
+   - 关键细节（文字、标识、特征）
+   - 语义信息（主题、意图、情境）
+
+2. 第二张图片评估
+   基于第一张图片，从以下维度评估第二张图片：
+   - 内容一致性：主要对象和场景元素是否保持一致
+   - 语义相关性：主题意图和信息传达是否相符
+   - 视觉质量：图像清晰度、完整性、是否存在明显缺陷
+   - 细节保真度：重要特征、比例、空间关系是否准确
+
+3. 综合评分
+   评分标准：
+   - 分数1：图片整体一致且相关，无明显问题
+   - 分数0：存在以下任一情况
+     * 主要内容不一致或缺失
+     * 语义偏离或不相关
+     * 存在明显的质量缺陷
+     * 关键细节错误或失真
+
+【输出要求】
+请进行逐步分析后，输出最终评分和简要原因。
+输出格式必须为JSON：{"score": 评分, "reason": "原因说明"}
+"""
diff --git a/examples/image/sdk_image_relevant.py b/examples/image/sdk_image_relevant.py
@@ -24,7 +24,9 @@ def image_relevant():
         },
         "evaluator": {
             "llm_config": {
+                # IMPORTANT: VLMImageRelevant requires a vision-language model (VLM)
                 "VLMImageRelevant": {
+                    "model": "",  # e.g. qwen3-vl, gpt-4o, doubao-seed-vision
                     "key": "",
                     "api_url": "",
                 }
diff --git a/test/data/test_img_jsonl.jsonl b/test/data/test_img_jsonl.jsonl
@@ -1,10 +1,7 @@
-{"id": "1", "url_1": "../test/data/img_builtin/origin.jpg", "url_2": "../test/data/img_builtin/new1.jpg"}
-{"id": "2", "url_1": "../test/data/img_builtin/origin.jpg", "url_2": "../test/data/img_builtin/new2.jpg"}
-{"id": "3", "url_1": "../test/data/img_builtin/origin.jpg", "url_2": "../test/data/img_builtin/new3.jpg"}
-{"id": "4", "url_1": "../test/data/img_builtin/origin.jpg", "url_2": "../test/data/img_builtin/new4.jpg"}
-{"id": "5", "url_1": "../test/data/img_builtin/origin.jpg", "url_2": "../test/data/img_builtin/new5.jpg"}
-{"id": "6", "url_1": "../test/data/img_builtin/origin.jpg", "url_2": "../test/data/img_builtin/new6.jpg"}
-{"id": "7", "url_1": "../test/data/img_builtin/origin.jpg", "url_2": "../test/data/img_builtin/new7.jpg"}
-{"id": "8", "url_1": "../test/data/img_builtin/origin.jpg", "url_2": "../test/data/img_builtin/new8.jpg"}
-{"id": "9", "url_1": "../test/data/img_builtin/origin.jpg", "url_2": "../test/data/img_builtin/new9.jpg"}
-{"id": "10", "url_1": "../test/data/img_builtin/origin.jpg", "url_2": "../test/data/img_builtin/new10.jpg"}
+{"id": "1", "url_1": "../../test/data/img_builtin/origin.jpg", "url_2": "../../test/data/img_builtin/new1.jpeg"}
+{"id": "2", "url_1": "../../test/data/img_builtin/origin.jpg", "url_2": "../../test/data/img_builtin/new2.jpeg"}
+{"id": "3", "url_1": "../../test/data/img_builtin/origin.jpg", "url_2": "../../test/data/img_builtin/new3.jpeg"}
+{"id": "4", "url_1": "../../test/data/img_builtin/origin.jpg", "url_2": "../../test/data/img_builtin/new4.jpeg"}
+{"id": "5", "url_1": "../../test/data/img_builtin/origin.jpg", "url_2": "../../test/data/img_builtin/new5.jpeg"}
+{"id": "6", "url_1": "../../test/data/img_builtin/origin.jpg", "url_2": "../../test/data/img_builtin/new6.jpeg"}
+{"id": "7", "url_1": "../../test/data/img_builtin/origin.jpg", "url_2": "../../test/data/img_builtin/new7.jpeg"}