fix: llm_web_kit extrator

e06084 · e06084 · commit 6b9bb62efab3 · 2025-08-13T14:55:35.000+08:00
diff --git a/examples/basic_usage.py b/examples/basic_usage.py
@@ -1015,15 +1015,6 @@ def demo_llm_webkit_with_preprocessed_html_evaluation():
     print(f"  - 跳过LLM推理: 是（直接处理预处理HTML）")
     print()
     
-    # 3. 性能对比：展示预处理HTML模式的优势
-    print("3. 性能优势演示...")
-    print("🚀 预处理HTML模式的优势:")
-    print("  ✅ 无需加载大型LLM模型（节省内存）")
-    print("  ✅ 跳过HTML简化推理步骤（节省时间）")
-    print("  ✅ 只需要基础的llm_web_kit依赖")
-    print("  ✅ 适合批量处理已预处理的数据")
-    print()
-    
     # 4. 运行评测
     print("4. 开始评测...")
     print("=" * 50)
@@ -1094,25 +1085,6 @@ def demo_llm_webkit_with_preprocessed_html_evaluation():
     print(f"✅ 详细结果已保存到: {results_path}")
     print(f"✅ CSV报告已保存到: {report_path}")
     
-    # 8. 使用建议
-    print(f"\n8. 💡 实际使用建议:")
-    print("=" * 50)
-    print("🔧 何时使用预处理HTML模式:")
-    print("  1. 已有LLM简化后的HTML数据")
-    print("  2. 需要批量处理大量数据")
-    print("  3. 部署环境内存有限")
-    print("  4. 对提取速度有较高要求")
-    print()
-    print("📝 数据准备要求:")
-    print("  1. 确保预处理HTML包含_item_id属性")
-    print("  2. 保持原始HTML作为备用")
-    print("  3. 验证预处理质量")
-    print()
-    print("⚙️  配置参数说明:")
-    print("  - use_preprocessed_html: True/False")
-    print("  - preprocessed_html_field: 字段名（默认'llm_webkit_html'）")
-    
-    print("\n✅ 预处理HTML功能演示完成！")
 
 
 if __name__ == "__main__":
diff --git a/results/preprocessed_html_evaluation_report.csv b/results/preprocessed_html_evaluation_report.csv
@@ -1,2 +1,2 @@
 extractor,dataset,total_samples,success_rate,overall,code_edit,formula_edit,table_TEDS,table_edit,text_edit
-llm-webkit,real_preprocessed_html_test,2,1.0,0.1042,0.0,0.0,0.0,0.0,0.521
+llm-webkit,real_preprocessed_html_test,2,1.0,0.0091,0.0,0.0,0.0,0.0,0.0453
diff --git a/results/preprocessed_html_evaluation_results.json b/results/preprocessed_html_evaluation_results.json
@@ -2,32 +2,32 @@
   "metadata": {
     "dataset_name": "real_preprocessed_html_test",
     "extractor_name": "llm-webkit",
-    "timestamp": "2025-08-08T16:08:47.516977",
+    "timestamp": "2025-08-13T14:53:57.558572",
     "total_samples": 2
   },
   "overall_metrics": {
-    "text_edit": 0.5209619232317955,
+    "text_edit": 0.045309156685715835,
     "code_edit": 0.0,
     "table_edit": 0.0,
     "table_TEDS": 0.0,
     "formula_edit": 0.0,
-    "overall": 0.10419238464635909
+    "overall": 0.009061831337143167
   },
   "sample_results": [
     {
       "sample_id": "33e291cd-5b26-48b1-977f-3c63b45e6d13",
       "extraction_success": true,
-      "extraction_time": 1.0598080158233643,
+      "extraction_time": 0.6193361282348633,
       "metrics": {
         "code_edit": {
           "score": 0.0,
           "success": true,
           "details": {
-            "distance": 499,
-            "predicted_length": 499,
+            "distance": 505,
+            "predicted_length": 505,
             "groundtruth_length": 0,
             "normalized": true,
-            "predicted_code_length": 499,
+            "predicted_code_length": 505,
             "groundtruth_code_length": 0,
             "content_type": "code"
           }
@@ -43,57 +43,48 @@
           "error": "Both predicted and groundtruth are empty"
         },
         "text_edit": {
-          "score": 0.16059957173447537,
+          "score": 0.09025270758122739,
           "success": true,
           "details": {
-            "distance": 392,
-            "predicted_length": 467,
+            "distance": 252,
+            "predicted_length": 25,
             "groundtruth_length": 277,
             "normalized": true,
-            "predicted_text_length": 467,
+            "predicted_text_length": 25,
             "groundtruth_text_length": 277,
             "content_type": "text"
           }
         },
         "table_edit": {
           "score": 0.0,
-          "success": true,
+          "success": false,
           "details": {
-            "distance": 43,
-            "predicted_length": 43,
-            "groundtruth_length": 0,
-            "normalized": true,
-            "predicted_table_length": 43,
+            "predicted_table_length": 0,
             "groundtruth_table_length": 0,
             "content_type": "table"
-          }
+          },
+          "error": "Both predicted and groundtruth are empty"
         },
         "table_TEDS": {
           "score": 0.0,
-          "success": true,
+          "success": false,
           "details": {
-            "edit_distance": 4.0,
-            "predicted_nodes": 4,
-            "groundtruth_nodes": 3,
-            "max_nodes": 4,
-            "structure_only": false,
-            "algorithm": "TEDS",
-            "content_type": "table"
-          }
+            "content_type": "table",
+            "algorithm": "TEDS"
+          },
+          "error": "Skipped due to table_edit failure: unknown reason"
         },
         "overall": {
-          "score": 0.04014989293361884,
+          "score": 0.045126353790613694,
           "success": true,
           "details": {
             "source": "average_of_all_metrics",
             "description": "Overall score as average of all successful metrics",
-            "successful_metrics": 4,
-            "failed_metrics": 1,
+            "successful_metrics": 2,
+            "failed_metrics": 3,
             "individual_scores": {
               "code_edit": 0.0,
-              "text_edit": 0.16059957173447537,
-              "table_edit": 0.0,
-              "table_TEDS": 0.0
+              "text_edit": 0.09025270758122739
             }
           }
         }
@@ -109,7 +100,7 @@
     {
       "sample_id": "93898d00-0d6c-451d-9f99-4c386c6c2918",
       "extraction_success": true,
-      "extraction_time": 0.9913830757141113,
+      "extraction_time": 0.0010640621185302734,
       "metrics": {
         "code_edit": {
           "score": 0.0,
@@ -132,56 +123,47 @@
           "error": "Both predicted and groundtruth are empty"
         },
         "text_edit": {
-          "score": 0.8813242747291157,
+          "score": 0.00036560579020428197,
           "success": true,
           "details": {
-            "distance": 21730,
-            "predicted_length": 183104,
+            "distance": 161317,
+            "predicted_length": 59,
             "groundtruth_length": 161376,
             "normalized": true,
-            "predicted_text_length": 183104,
+            "predicted_text_length": 59,
             "groundtruth_text_length": 161376,
             "content_type": "text"
           }
         },
         "table_edit": {
           "score": 0.0,
-          "success": true,
+          "success": false,
           "details": {
-            "distance": 33,
-            "predicted_length": 33,
-            "groundtruth_length": 0,
-            "normalized": true,
-            "predicted_table_length": 33,
+            "predicted_table_length": 0,
             "groundtruth_table_length": 0,
             "content_type": "table"
-          }
+          },
+          "error": "Both predicted and groundtruth are empty"
         },
         "table_TEDS": {
           "score": 0.0,
-          "success": true,
+          "success": false,
           "details": {
-            "edit_distance": 8.0,
-            "predicted_nodes": 8,
-            "groundtruth_nodes": 3,
-            "max_nodes": 8,
-            "structure_only": false,
-            "algorithm": "TEDS",
-            "content_type": "table"
-          }
+            "content_type": "table",
+            "algorithm": "TEDS"
+          },
+          "error": "Skipped due to table_edit failure: unknown reason"
         },
         "overall": {
-          "score": 0.29377475824303856,
+          "score": 0.00036560579020428197,
           "success": true,
           "details": {
             "source": "average_of_all_metrics",
             "description": "Overall score as average of all successful metrics",
-            "successful_metrics": 3,
-            "failed_metrics": 2,
+            "successful_metrics": 1,
+            "failed_metrics": 4,
             "individual_scores": {
-              "text_edit": 0.8813242747291157,
-              "table_edit": 0.0,
-              "table_TEDS": 0.0
+              "text_edit": 0.00036560579020428197
             }
           }
         }
diff --git a/tests/test_llm_webkit_extractor.py b/tests/test_llm_webkit_extractor.py
@@ -310,5 +310,7 @@ def test_preprocessed_html_e2e(self):
             self.skipTest(f"LLM-WebKit dependencies not available: {e}")
 
 
+
+
 if __name__ == '__main__':
     unittest.main()
diff --git a/webmainbench/evaluator/evaluator.py b/webmainbench/evaluator/evaluator.py
@@ -309,6 +309,9 @@ def _evaluate_sample(self, sample: DataSample, extractor: BaseExtractor) -> Dict
         """Evaluate a single sample."""
         if extractor.__class__.__name__ == 'TestModelExtractor':
             extraction_result = extractor.extract_from_sample(sample)
+        elif extractor.__class__.__name__ == 'LlmWebkitExtractor':
+            # LlmWebkitExtractor可以接受DataSample对象来支持预处理HTML
+            extraction_result = extractor.extract(sample, sample.url)
         else:
             # Extract content
             extraction_result = extractor.extract(sample.html, sample.url)
diff --git a/webmainbench/extractors/llm_webkit_extractor.py b/webmainbench/extractors/llm_webkit_extractor.py
@@ -605,14 +605,50 @@ def _extract_content_from_main_html(self, main_html: str, url: str = None) -> tu
             print(f"❌ llm-webkit提取失败: {e}")
             print(f"❌ 错误详情: {traceback.format_exc()}")
             raise RuntimeError(f"llm-webkit提取失败: {str(e)}") from e
-    
-    
+
+
+    def extract(self, html_or_sample, url: str = None) -> ExtractionResult:
+        """
+        重写extract方法以支持预处理HTML模式
+        
+        Args:
+            html_or_sample: HTML字符串或DataSample对象
+            url: 可选的页面URL
+            
+        Returns:
+            ExtractionResult实例
+        """
+        # 判断输入类型
+        if type(html_or_sample).__name__ == 'DataSample':  # 这是一个DataSample对象
+            sample = html_or_sample
+            
+            # 检查是否使用预处理的HTML
+            if self.inference_config.use_preprocessed_html:
+                preprocessed_field = self.inference_config.preprocessed_html_field
+                
+                # 从sample中获取预处理的HTML内容
+                if hasattr(sample, preprocessed_field):
+                    preprocessed_html = getattr(sample, preprocessed_field)
+                    if preprocessed_html:
+                        print(f"📥 使用预处理HTML字段: {preprocessed_field}")
+                        return super().extract(preprocessed_html, sample.url)
+                    else:
+                        print(f"⚠️ 预处理HTML字段 {preprocessed_field} 为空，回退到原始HTML")
+                else:
+                    print(f"⚠️ 样本中缺少预处理HTML字段 {preprocessed_field}，回退到原始HTML")
+            
+            # 使用原始HTML
+            return super().extract(sample.html, sample.url)
+        else:
+            # 这是普通的HTML字符串，使用标准处理
+            return super().extract(html_or_sample, url)
+
     def _extract_content(self, html: str, url: str = None) -> ExtractionResult:
         """
         使用高级LLM推理提取内容.
         
         Args:
-            html: HTML内容或主HTML内容（如果配置了use_preprocessed_html）
+            html: HTML内容。如果配置了use_preprocessed_html=True，则由Evaluator传入预处理的HTML内容
             url: 可选的页面URL
             
         Returns:
@@ -623,7 +659,7 @@ def _extract_content(self, html: str, url: str = None) -> ExtractionResult:
         try:
             # 检查是否使用预处理的HTML（跳过HTML简化步骤）
             if self.inference_config.use_preprocessed_html:
-                # 直接使用传入的html作为main_html，调用_extract_content_from_main_html
+                # 传入的html已经是预处理的内容（由Evaluator从指定字段提取），直接用作main_html
                 print(f"📥 使用预处理HTML，跳过HTML简化步骤")
                 content, content_list = self._extract_content_from_main_html(html, url)
                 

Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`	`1`	`extractor,dataset,total_samples,success_rate,overall,code_edit,formula_edit,table_TEDS,table_edit,text_edit`
`2`		`-llm-webkit,real_preprocessed_html_test,2,1.0,0.1042,0.0,0.0,0.0,0.0,0.521`
	`2`	`+llm-webkit,real_preprocessed_html_test,2,1.0,0.0091,0.0,0.0,0.0,0.0,0.0453`