将prompt设置为基类的变量

1041206149 · 1041206149 · commit 6182dfc38f84 · 2025-09-25T16:12:55.000+08:00
diff --git a/webmainbench/metrics/base_content_splitter.py b/webmainbench/metrics/base_content_splitter.py
@@ -1 +1 @@
-from abc import ABC, abstractmethodfrom typing import List, Dict, Anyimport osimport hashlibimport jsonfrom openai import OpenAIclass BaseContentSplitter(ABC):    """抽象基类，用于从文本中提取特定类型的内容"""    def __init__(self, config: Dict[str, Any] = None):        """初始化提取器"""        self.config = config or {}        # 保留这行代码，用于控制是否使用LLM        self.use_llm = self.config.get('use_llm', True)        # 初始化OpenAI客户端（如果配置了LLM）        if self.use_llm and self.config.get('llm_base_url') and self.config.get('llm_api_key'):            self.client = OpenAI(                base_url=self.config.get('llm_base_url', ""),                api_key=self.config.get('llm_api_key', "")            )        else:            self.client = None        self.cache_dir = self.config.get('cache_dir',                                         os.path.join(os.path.dirname(os.path.dirname(os.path.abspath(__file__))),                                                      '.cache'))        os.makedirs(self.cache_dir, exist_ok=True)    @abstractmethod    def extract(self, text: str, field_name: str = None) -> str:        """提取特定类型的内容"""        pass    @abstractmethod    def extract_basic(self, text: str) -> List[str]:        """使用基本方法提取内容（通常是正则表达式）"""        pass    def should_use_llm(self, field_name: str) -> bool:        """判断是否应该使用LLM进行增强提取"""        if not self.use_llm:            return False        # 默认逻辑：对groundtruth内容不使用LLM，对其他内容使用        if field_name == "groundtruth_content":            print(f"[DEBUG] 检测到groundtruth内容，不使用LLM")            return False        return True    def enhance_with_llm(self, basic_results: List[str], cache_key: str = None) -> List[str]:        """使用LLM增强基本提取结果"""        if not basic_results:            print(f"[DEBUG] 输入内容为空，跳过LLM增强")            return []        # 生成缓存键        if cache_key is None:            content_str = '\n'.join(basic_results)            cache_key = hashlib.md5(content_str.encode('utf-8')).hexdigest()        cache_file = os.path.join(self.cache_dir, f'{self.__class__.__name__.lower()}_cache_{cache_key}.json')        # 检查缓存        if os.path.exists(cache_file):            try:                with open(cache_file, 'r', encoding='utf-8') as f:                    cached_result = json.load(f)                    print(f"[DEBUG] 从缓存加载LLM增强结果: {len(cached_result)} 个")                    return cached_result            except Exception as e:                print(f"[DEBUG] 缓存读取失败: {e}")        # 实际的LLM增强逻辑        try:            enhanced_results = self._llm_enhance(basic_results)            # 保存缓存            try:                with open(cache_file, 'w', encoding='utf-8') as f:                    json.dump(enhanced_results, f, ensure_ascii=False, indent=2)                print(f"[DEBUG] LLM增强结果已缓存到: {cache_file}")            except Exception as e:                print(f"[DEBUG] 缓存保存失败: {e}")            return enhanced_results        except Exception as e:            print(f"[DEBUG] LLM增强失败: {type(e).__name__}: {e}")            return basic_results    @abstractmethod    def _llm_enhance(self, basic_results: List[str]) -> List[str]:        """使用LLM增强基本提取结果的具体实现"""        pass
+from abc import ABC, abstractmethodfrom typing import List, Dict, Anyimport osimport hashlibimport jsonfrom openai import OpenAIclass BaseContentSplitter(ABC):    """抽象基类，用于从文本中提取特定类型的内容"""    # 默认的LLM提示词模板    DEFAULT_LLM_PROMPT = """请处理以下内容：    {content}    """    def __init__(self, config: Dict[str, Any] = None):        """初始化提取器"""        self.config = config or {}        # 保留这行代码，用于控制是否使用LLM        self.use_llm = self.config.get('use_llm', True)        # 初始化OpenAI客户端（如果配置了LLM）        if self.use_llm and self.config.get('llm_base_url') and self.config.get('llm_api_key'):            self.client = OpenAI(                base_url=self.config.get('llm_base_url', ""),                api_key=self.config.get('llm_api_key', "")            )        else:            self.client = None        self.cache_dir = self.config.get('cache_dir',                                         os.path.join(os.path.dirname(os.path.dirname(os.path.abspath(__file__))),                                                      '.cache'))        os.makedirs(self.cache_dir, exist_ok=True)    @abstractmethod    def extract(self, text: str, field_name: str = None) -> str:        """提取特定类型的内容"""        pass    @abstractmethod    def extract_basic(self, text: str) -> List[str]:        """使用基本方法提取内容（通常是正则表达式）"""        pass    def should_use_llm(self, field_name: str) -> bool:        """判断是否应该使用LLM进行增强提取"""        if not self.use_llm:            return False        # 默认逻辑：对groundtruth内容不使用LLM，对其他内容使用        if field_name == "groundtruth_content":            print(f"[DEBUG] 检测到groundtruth内容，不使用LLM")            return False        return True    def enhance_with_llm(self, basic_results: List[str], cache_key: str = None) -> List[str]:        """使用LLM增强基本提取结果"""        if not basic_results:            print(f"[DEBUG] 输入内容为空，跳过LLM增强")            return []        # 生成缓存键        if cache_key is None:            content_str = '\n'.join(basic_results)            cache_key = hashlib.md5(content_str.encode('utf-8')).hexdigest()        cache_file = os.path.join(self.cache_dir, f'{self.__class__.__name__.lower()}_cache_{cache_key}.json')        # 检查缓存        if os.path.exists(cache_file):            try:                with open(cache_file, 'r', encoding='utf-8') as f:                    cached_result = json.load(f)                    print(f"[DEBUG] 从缓存加载LLM增强结果: {len(cached_result)} 个")                    return cached_result            except Exception as e:                print(f"[DEBUG] 缓存读取失败: {e}")        # 实际的LLM增强逻辑        try:            enhanced_results = self._llm_enhance(basic_results)            # 保存缓存            try:                with open(cache_file, 'w', encoding='utf-8') as f:                    json.dump(enhanced_results, f, ensure_ascii=False, indent=2)                print(f"[DEBUG] LLM增强结果已缓存到: {cache_file}")            except Exception as e:                print(f"[DEBUG] 缓存保存失败: {e}")            return enhanced_results        except Exception as e:            print(f"[DEBUG] LLM增强失败: {type(e).__name__}: {e}")            return basic_results    @abstractmethod    def _llm_enhance(self, basic_results: List[str]) -> List[str]:        """使用LLM增强基本提取结果的具体实现"""        pass
diff --git a/webmainbench/metrics/formula_extractor.py b/webmainbench/metrics/formula_extractor.py
@@ -6,16 +6,54 @@
 class FormulaSplitter(BaseContentSplitter):
     """从文本中提取数学公式"""
 
+    DEFAULT_LLM_PROMPT = '''任务：请从以下正则表达式提取的内容中，识别并保留真正的LaTeX数学公式，剔除货币形式的内容。
+
+    ### 识别规则
+    **真正的数学公式**（保留）：
+    - 包含数学符号：+ - × ÷ = < > ≤ ≥ ± ∞ ∑ ∫ ∂ √ ^ _ { } 等
+    - 包含希腊字母：α β γ δ θ λ μ π σ ω 等
+    - 包含LaTeX命令：\\frac \\sum \\int \\sqrt \\alpha \\beta \\sin \\cos 等
+    - 包含数学表达式：变量、函数、方程等
+
+    **货币形式内容**（剔除）：
+    - 仅包含数字、逗号、小数点的价格：如 1,150.00
+    - 纯粹的金额数值：如 25.99、1,200、5.50
+    - 不包含任何数学运算符或数学符号的数字
+
+    ### 处理要求
+    1. **严格区分**：只保留真正的数学公式，剔除所有货币价格
+    2. **格式标准化**：统一公式格式，确保LaTeX语法正确
+    3. **保持原意**：不修改数学公式内容
+
+    ### 输出格式
+    - 每个有效的数学公式独占一行
+    - 只输出公式内容，不包含$符号或其他包装
+    - 如果输入不是有效的数学公式（如货币），则输出<空>
+    - 按原顺序输出保留的公式
+
+    ### 示例 1 (剔除后有有效公式)
+    输入：1,150.00 → 剔除（货币）
+    输入：x^2 + y^2 = r^2 → 保留（数学公式）
+    输入：25.99 → 剔除（货币）
+    输入：\\frac{a}{b} + c → 保留（数学公式）
+
+    ### 示例 2 (剔除后无有效公式)
+    输入：1,150.00 → 剔除（货币）
+    输入：25.99 → 剔除（货币）
+
+    输出：<空>
+
+    注意，输出结果中不要添加任何解释！。
+    [输入内容列表开始]'''
+
     def extract(self, text: str, field_name: str = None) -> str:
         """提取数学公式"""
         regex_formulas = self.extract_basic(text)
-
         if self.should_use_llm(field_name):
             print(f"[DEBUG] 使用LLM增强公式提取")
             formula_parts = self.enhance_with_llm(regex_formulas)
         else:
             formula_parts = regex_formulas
-
         return '\n'.join(formula_parts)
 
     def extract_basic(self, text: str) -> List[str]:
@@ -44,51 +82,11 @@ def _llm_enhance(self, basic_results: List[str]) -> List[str]:
 
         formulas_text = '\n'.join(basic_results)
 
-        CORRECTION_PROMPT = '''任务：请从以下正则表达式提取的内容中，识别并保留真正的LaTeX数学公式，剔除货币形式的内容。
-    
-        ### 识别规则
-        **真正的数学公式**（保留）：
-        - 包含数学符号：+ - × ÷ = < > ≤ ≥ ± ∞ ∑ ∫ ∂ √ ^ _ { } 等
-        - 包含希腊字母：α β γ δ θ λ μ π σ ω 等
-        - 包含LaTeX命令：\\frac \\sum \\int \\sqrt \\alpha \\beta \\sin \\cos 等
-        - 包含数学表达式：变量、函数、方程等
-    
-        **货币形式内容**（剔除）：
-        - 仅包含数字、逗号、小数点的价格：如 1,150.00
-        - 纯粹的金额数值：如 25.99、1,200、5.50
-        - 不包含任何数学运算符或数学符号的数字
-    
-        ### 处理要求
-        1. **严格区分**：只保留真正的数学公式，剔除所有货币价格
-        2. **格式标准化**：统一公式格式，确保LaTeX语法正确
-        3. **保持原意**：不修改数学公式内容
-        
-        ### 输出格式
-        - 每个有效的数学公式独占一行
-        - 只输出公式内容，不包含$符号或其他包装
-        - 如果输入不是有效的数学公式（如货币），则输出<空>
-        - 按原顺序输出保留的公式
-    
-        ### 示例 1 (剔除后有有效公式)
-        输入：1,150.00 → 剔除（货币）
-        输入：x^2 + y^2 = r^2 → 保留（数学公式）
-        输入：25.99 → 剔除（货币）
-        输入：\\frac{a}{b} + c → 保留（数学公式）
-        
-        ### 示例 2 (剔除后无有效公式)
-        输入：1,150.00 → 剔除（货币）
-        输入：25.99 → 剔除（货币）
-        
-        输出：<空>
-        
-        注意，输出结果中不要添加任何解释！。
-        [输入内容列表开始]'''
-
         response = self.client.chat.completions.create(
             model=self.config.get('llm_model', "deepseek-chat"),
             temperature=0,
             messages=[
-                {"role": "user", "content": CORRECTION_PROMPT + f"\n{formulas_text}\n" + '''[输入内容列表结束]
+                {"role": "user", "content": self.DEFAULT_LLM_PROMPT + f"\n{formulas_text}\n" + '''[输入内容列表结束]
         ---
         请按要求识别并输出真正的数学公式，剔除货币形式的内容。
         ---'''}
@@ -102,4 +100,4 @@ def _llm_enhance(self, basic_results: List[str]) -> List[str]:
         elif not result_text:
             return []
         else:
-            return [line.strip() for line in result_text.split('\n') if line.strip()]
+            return [line.strip() for line in result_text.split('\n') if line.strip()]

Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		-from abc import ABC, abstractmethodfrom typing import List, Dict, Anyimport osimport hashlibimport jsonfrom openai import OpenAIclass BaseContentSplitter(ABC): """抽象基类，用于从文本中提取特定类型的内容""" def __init__(self, config: Dict[str, Any] = None): """初始化提取器""" self.config = config or {} # 保留这行代码，用于控制是否使用LLM self.use_llm = self.config.get('use_llm', True) # 初始化OpenAI客户端（如果配置了LLM） if self.use_llm and self.config.get('llm_base_url') and self.config.get('llm_api_key'): self.client = OpenAI( base_url=self.config.get('llm_base_url', ""), api_key=self.config.get('llm_api_key', "") ) else: self.client = None self.cache_dir = self.config.get('cache_dir', os.path.join(os.path.dirname(os.path.dirname(os.path.abspath(__file__))), '.cache')) os.makedirs(self.cache_dir, exist_ok=True) @abstractmethod def extract(self, text: str, field_name: str = None) -> str: """提取特定类型的内容""" pass @abstractmethod def extract_basic(self, text: str) -> List[str]: """使用基本方法提取内容（通常是正则表达式）""" pass def should_use_llm(self, field_name: str) -> bool: """判断是否应该使用LLM进行增强提取""" if not self.use_llm: return False # 默认逻辑：对groundtruth内容不使用LLM，对其他内容使用 if field_name == "groundtruth_content": print(f"[DEBUG] 检测到groundtruth内容，不使用LLM") return False return True def enhance_with_llm(self, basic_results: List[str], cache_key: str = None) -> List[str]: """使用LLM增强基本提取结果""" if not basic_results: print(f"[DEBUG] 输入内容为空，跳过LLM增强") return [] # 生成缓存键 if cache_key is None: content_str = '\n'.join(basic_results) cache_key = hashlib.md5(content_str.encode('utf-8')).hexdigest() cache_file = os.path.join(self.cache_dir, f'{self.__class__.__name__.lower()}_cache_{cache_key}.json') # 检查缓存 if os.path.exists(cache_file): try: with open(cache_file, 'r', encoding='utf-8') as f: cached_result = json.load(f) print(f"[DEBUG] 从缓存加载LLM增强结果: {len(cached_result)} 个") return cached_result except Exception as e: print(f"[DEBUG] 缓存读取失败: {e}") # 实际的LLM增强逻辑 try: enhanced_results = self._llm_enhance(basic_results) # 保存缓存 try: with open(cache_file, 'w', encoding='utf-8') as f: json.dump(enhanced_results, f, ensure_ascii=False, indent=2) print(f"[DEBUG] LLM增强结果已缓存到: {cache_file}") except Exception as e: print(f"[DEBUG] 缓存保存失败: {e}") return enhanced_results except Exception as e: print(f"[DEBUG] LLM增强失败: {type(e).__name__}: {e}") return basic_results @abstractmethod def _llm_enhance(self, basic_results: List[str]) -> List[str]: """使用LLM增强基本提取结果的具体实现""" pass
	`1`	+from abc import ABC, abstractmethodfrom typing import List, Dict, Anyimport osimport hashlibimport jsonfrom openai import OpenAIclass BaseContentSplitter(ABC): """抽象基类，用于从文本中提取特定类型的内容""" # 默认的LLM提示词模板 DEFAULT_LLM_PROMPT = """请处理以下内容： {content} """ def __init__(self, config: Dict[str, Any] = None): """初始化提取器""" self.config = config or {} # 保留这行代码，用于控制是否使用LLM self.use_llm = self.config.get('use_llm', True) # 初始化OpenAI客户端（如果配置了LLM） if self.use_llm and self.config.get('llm_base_url') and self.config.get('llm_api_key'): self.client = OpenAI( base_url=self.config.get('llm_base_url', ""), api_key=self.config.get('llm_api_key', "") ) else: self.client = None self.cache_dir = self.config.get('cache_dir', os.path.join(os.path.dirname(os.path.dirname(os.path.abspath(__file__))), '.cache')) os.makedirs(self.cache_dir, exist_ok=True) @abstractmethod def extract(self, text: str, field_name: str = None) -> str: """提取特定类型的内容""" pass @abstractmethod def extract_basic(self, text: str) -> List[str]: """使用基本方法提取内容（通常是正则表达式）""" pass def should_use_llm(self, field_name: str) -> bool: """判断是否应该使用LLM进行增强提取""" if not self.use_llm: return False # 默认逻辑：对groundtruth内容不使用LLM，对其他内容使用 if field_name == "groundtruth_content": print(f"[DEBUG] 检测到groundtruth内容，不使用LLM") return False return True def enhance_with_llm(self, basic_results: List[str], cache_key: str = None) -> List[str]: """使用LLM增强基本提取结果""" if not basic_results: print(f"[DEBUG] 输入内容为空，跳过LLM增强") return [] # 生成缓存键 if cache_key is None: content_str = '\n'.join(basic_results) cache_key = hashlib.md5(content_str.encode('utf-8')).hexdigest() cache_file = os.path.join(self.cache_dir, f'{self.__class__.__name__.lower()}_cache_{cache_key}.json') # 检查缓存 if os.path.exists(cache_file): try: with open(cache_file, 'r', encoding='utf-8') as f: cached_result = json.load(f) print(f"[DEBUG] 从缓存加载LLM增强结果: {len(cached_result)} 个") return cached_result except Exception as e: print(f"[DEBUG] 缓存读取失败: {e}") # 实际的LLM增强逻辑 try: enhanced_results = self._llm_enhance(basic_results) # 保存缓存 try: with open(cache_file, 'w', encoding='utf-8') as f: json.dump(enhanced_results, f, ensure_ascii=False, indent=2) print(f"[DEBUG] LLM增强结果已缓存到: {cache_file}") except Exception as e: print(f"[DEBUG] 缓存保存失败: {e}") return enhanced_results except Exception as e: print(f"[DEBUG] LLM增强失败: {type(e).__name__}: {e}") return basic_results @abstractmethod def _llm_enhance(self, basic_results: List[str]) -> List[str]: """使用LLM增强基本提取结果的具体实现""" pass