opendatalab
diff --git a/‎results/sample_dataset_llm-webkit_evaluation_report.csv‎
Lines changed: 1 addition & 1 deletion b/‎results/sample_dataset_llm-webkit_evaluation_report.csv‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎results/sample_dataset_llm-webkit_evaluation_results.json‎
Lines changed: 19 additions & 107 deletions b/‎results/sample_dataset_llm-webkit_evaluation_results.json‎
Lines changed: 19 additions & 107 deletions
diff --git a/‎results/sample_dataset_with_llm-webkit_extraction.jsonl‎
Lines changed: 4 additions & 4 deletions b/‎results/sample_dataset_with_llm-webkit_extraction.jsonl‎
Lines changed: 4 additions & 4 deletions
diff --git a/‎webmainbench/data/saver.py‎
Lines changed: 27 additions & 0 deletions b/‎webmainbench/data/saver.py‎
Lines changed: 27 additions & 0 deletions
diff --git a/‎webmainbench/extractors/llm_webkit_extractor.py‎
Lines changed: 6 additions & 10 deletions b/‎webmainbench/extractors/llm_webkit_extractor.py‎
Lines changed: 6 additions & 10 deletions
@@ -1,2 +1,2 @@
 extractor,dataset,total_samples,success_rate,overall,code_edit,formula_edit,table_TEDS,table_edit,text_edit
-llm-webkit,sample_dataset,4,0.75,0.8667,1.0,1.0,1.0,1.0,0.3333
+llm-webkit,sample_dataset,4,0.5,0.9,1.0,1.0,1.0,1.0,0.5
@@ -98,6 +98,9 @@ def save_evaluation_results(results: Union["EvaluationResult", Dict[str, Any]],
         else:
             results_dict = results
 
+        # 移除extracted_content和extracted_content_list字段以减少文件大小
+        results_dict = DataSaver._remove_content_fields(results_dict)
+        
         if format.lower() == "json":
             with open(file_path, 'w', encoding='utf-8') as f:
                 json.dump(results_dict, f, indent=2, ensure_ascii=False)
@@ -265,6 +268,30 @@ def _save_jsonl_list(data_list: List[Dict[str, Any]], file_path: Union[str, Path
                 json.dump(item, f, ensure_ascii=False)
                 f.write('\n')
 
+    @staticmethod
+    def _remove_content_fields(data: Dict[str, Any]) -> Dict[str, Any]:
+        """移除extracted_content和extracted_content_list字段以减少保存文件大小"""
+        import copy
+        
+        cleaned_data = copy.deepcopy(data)
+        
+        def remove_fields(obj):
+            if isinstance(obj, dict):
+                # 移除extracted_content和extracted_content_list字段
+                obj.pop('extracted_content', None)
+                obj.pop('extracted_content_list', None)
+                # 递归处理嵌套字典和列表
+                for value in obj.values():
+                    if isinstance(value, (dict, list)):
+                        remove_fields(value)
+            elif isinstance(obj, list):
+                for item in obj:
+                    if isinstance(item, (dict, list)):
+                        remove_fields(item)
+        
+        remove_fields(cleaned_data)
+        return cleaned_data
+    
     @staticmethod
     def append_intermediate_results(results: List[Dict[str, Any]], 
                                   file_path: Union[str, Path]) -> None:
 
@@ -370,20 +370,16 @@ def _load_vllm_model(self):
                 trust_remote_code=True
             )
 
-            # vLLM配置
+            # vLLM配置 - 参考ray_test_qa.py的简化配置
             model_kwargs = {
                 "model": self.inference_config.model_path,
                 "trust_remote_code": True,
                 "dtype": self.inference_config.dtype,
                 "tensor_parallel_size": self.inference_config.tensor_parallel_size,
-                "max_model_len": self.inference_config.max_tokens,
-                "max_num_batched_tokens": max(self.inference_config.max_tokens, 8192),
-                "gpu_memory_utilization": self.inference_config.gpu_memory_utilization,
-                "enforce_eager": self.inference_config.enforce_eager,
-                "disable_custom_all_reduce": True,
-                "load_format": "auto",
             }
 
+            print(f"🔧 vLLM配置: {model_kwargs}")
+            
             self.model = LLM(**model_kwargs)
 
             # 初始化token状态管理器
@@ -397,8 +393,8 @@ def _load_vllm_model(self):
             print("✅ vLLM模型加载成功!")
 
         except Exception as e:
-            print(f"⚠️  vLLM加载失败，回退到transformers: {e}")
-            self._load_transformers_model()
+            print(f"❌ vLLM加载失败: {e}")
+            raise RuntimeError(f"vLLM模型加载失败: {e}")
 
     def _create_prompt(self, simplified_html: str) -> str:
         """创建分类提示."""
@@ -463,7 +459,7 @@ def _generate_with_transformers(self, prompt: str) -> str:
 
         except Exception as e:
             print(f"⚠️  transformers生成失败: {e}")
-            return "{}"
+            raise RuntimeError(f"transformers生成失败: {e}")
 
     def _extract_json_from_text(self, text: str) -> str:
         """从生成的文本中提取JSON"""
Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`	`1`	`extractor,dataset,total_samples,success_rate,overall,code_edit,formula_edit,table_TEDS,table_edit,text_edit`
`2`		`-llm-webkit,sample_dataset,4,0.75,0.8667,1.0,1.0,1.0,1.0,0.3333`
	`2`	`+llm-webkit,sample_dataset,4,0.5,0.9,1.0,1.0,1.0,1.0,0.5`