add extractor version in results

pekopoke · pekopoke · commit c79175851498 · 2025-09-10T15:02:12.000+08:00
diff --git a/webmainbench/data/saver.py b/webmainbench/data/saver.py
@@ -146,12 +146,12 @@ def to_dict_if_needed(item):
             # Extract basic info
             metadata = result.get('metadata', {})
             error_analysis = result.get('error_analysis', {})
-            
             row = {
                 'extractor': metadata.get('extractor_name', 'unknown'),
                 'dataset': metadata.get('dataset_name', 'unknown'),
                 'total_samples': metadata.get('total_samples', 0),
-                'success_rate': error_analysis.get('success_rate', 0.0)
+                'success_rate': error_analysis.get('success_rate', 0.0),
+                'extractor_version': metadata.get('version', 'unknown')
             }
             
             # Add all available metrics from overall_metrics
@@ -170,7 +170,7 @@ def get_sort_key(row):
         # Write CSV file
         if csv_data:
             # Define field order: basic info first, then overall, then other metrics alphabetically
-            basic_fields = ['extractor', 'dataset', 'total_samples', 'success_rate']
+            basic_fields = ['extractor', 'dataset', 'total_samples', 'success_rate','extractor_version']
             
             # Get all metric fields from the data
             all_fields = set()
diff --git a/webmainbench/evaluator/evaluator.py b/webmainbench/evaluator/evaluator.py
@@ -23,6 +23,7 @@ class EvaluationResult:
     extractor_name: str
     timestamp: str
     total_samples: int
+    version: str  # 抽取器版本
     
     # Overall metrics
     overall_metrics: Dict[str, float]
@@ -48,6 +49,7 @@ def to_dict(self) -> Dict[str, Any]:
                 "extractor_name": self.extractor_name,
                 "timestamp": self.timestamp,
                 "total_samples": self.total_samples,
+                "version": self.version
             },
             "overall_metrics": self.overall_metrics,
             "sample_results": self.sample_results,
@@ -72,6 +74,7 @@ def from_dict(cls, data: Dict[str, Any]) -> "EvaluationResult":
             error_analysis=data.get("error_analysis"),
             extractor_config=data.get("extractor_config"),
             metric_config=data.get("metric_config"),
+            version=metadata.get("version", "unknown"),
         )
 
 
@@ -182,6 +185,8 @@ def evaluate(self,
             error_analysis=error_analysis,
             extractor_config=extractor.get_config(),
             metric_config=self.metric_config,
+            # 新增：传入抽取器版本（从extractor对象获取）
+            version=getattr(extractor, 'version', 'unknown'),
         )
         
         return evaluation_result
diff --git a/webmainbench/extractors/llm_webkit_extractor.py b/webmainbench/extractors/llm_webkit_extractor.py
@@ -155,7 +155,7 @@ def process_logit(self, prompt_token_ids: List[int], input_ids: List[int], logit
 class LlmWebkitExtractor(BaseExtractor):
     """Advanced LLM-WebKit extractor with intelligent content classification."""
     
-    version = "2.0.0"
+    version = "4.0.1"
     description = "Advanced LLM-WebKit extractor with intelligent content classification"
     
     # 分类提示模板