fix match formula and code

pekopoke · pekopoke · commit bd240345d23e · 2025-08-18T17:08:30.000+08:00
diff --git a/examples/basic_usage.py b/examples/basic_usage.py
@@ -957,7 +957,7 @@ def demo_llm_webkit_with_preprocessed_html_evaluation():
     print("1. 从真实数据集加载预处理HTML数据...")
     
     # 使用DataLoader加载真实的样本数据
-    dataset_path = Path("/home/lulindong/Pycharm_projects/cc/WebMainBench_1949_v1_WebMainBench_dataset_merge_with_llm_webkit.jsonl")
+    dataset_path = Path("/home/lulindong/Pycharm_projects/cc/WebMainBench_1848_v1_WebMainBench_dataset_merge_with_llm_webkit.jsonl")
     print(f"📂 数据集文件: {dataset_path}")
     
     if not dataset_path.exists():
@@ -1101,7 +1101,6 @@ def demo_llm_webkit_with_preprocessed_html_evaluation():
         # demo_extractor_comparison()
         # demo_dataset_with_extraction()  # 演示保存带有抽取内容的数据集
         # demo_multi_extraction() # 演示多个抽取器同时评测
-        # demo_lld_workers_extraction()
         print("\n✅ 示例运行完成！")
         
     except Exception as e:
diff --git a/webmainbench/metrics/base.py b/webmainbench/metrics/base.py
@@ -201,34 +201,49 @@ def _extract_from_markdown(text: str) -> Dict[str, str]:
         
         # 收集所有需要移除的内容片段
         extracted_segments = []
-        
-        # 提取代码
         code_parts = []
-        # 代码块 ```code```
-        for match in re.finditer(r'```[\s\S]*?```', text):
-            code_block = match.group(0)
-            extracted_segments.append(code_block)
-            code_parts.append(code_block.strip('`').strip())
+        # 同时匹配行内代码 `...` 和代码块 ```...```
+        pattern = r'(```[\s\S]*?```|`[^`\n]+`)'  # 匹配 ```...``` 或 `...`
+        for match in re.finditer(pattern, text):
+            code_segment = match.group(0)
+
+            # 判断是代码块还是行内代码
+            if code_segment.startswith('```'):
+                # 代码块，去掉 ``` 并去除首尾空白
+                code_content = code_segment[3:-3].strip()
+            else:
+                # 行内代码，去掉 `
+                code_content = code_segment[1:-1]
+
+            code_parts.append(code_content)
         
-        # 行内代码 `code`
-        for match in re.finditer(r'`([^`]+)`', text):
-            inline_code_full = match.group(0)  # 包含反引号的完整匹配
-            inline_code_content = match.group(1)  # 只是内容
-            extracted_segments.append(inline_code_full)
-            code_parts.append(inline_code_content)
+        # # 提取代码
+        # code_parts = []
+        # # 代码块 ```code```
+        # for match in re.finditer(r'```[\s\S]*?```', text):
+        #     code_block = match.group(0)
+        #     extracted_segments.append(code_block)
+        #     code_parts.append(code_block.strip('`').strip())
+        #
+        # # 行内代码 `code`
+        # for match in re.finditer(r'`([^`]+)`', text):
+        #     inline_code_full = match.group(0)  # 包含反引号的完整匹配
+        #     inline_code_content = match.group(1)  # 只是内容
+        #     extracted_segments.append(inline_code_full)
+        #     code_parts.append(inline_code_content)
         
         # 提取公式
         formula_parts = []
         # 统一的公式提取模式
         latex_patterns = [
-            r'(?<!\\)\$\$([^$]+)\$\$(?!\\)',  # Display math (not escaped)
-            r'(?<!\\)\$([^$\n]+)\$(?![\\\$])',  # Inline math (not escaped)
-            # r'\\begin\{equation\*?\}(.*?)\\end\{equation\*?\}',  # Equation environment
-            # r'\\begin\{align\*?\}(.*?)\\end\{align\*?\}',        # Align environment
-            # r'\\begin\{gather\*?\}(.*?)\\end\{gather\*?\}',      # Gather environment
-            # r'\\begin\{eqnarray\*?\}(.*?)\\end\{eqnarray\*?\}',  # Eqnarray environment
-            # r'\\begin\{multline\*?\}(.*?)\\end\{multline\*?\}',  # Multline environment
-            # r'\\begin\{split\}(.*?)\\end\{split\}',              # Split environment
+            # r'(?<!\\)\$\$([^$]+)\$\$(?!\\)',  # Display math (not escaped)
+            # r'(?<!\\)\$([^$\n]+)\$(?![\\\$])',  # Inline math (not escaped)
+            # r'(?<!\\)\$\$([^$]+)\$\$(?!\\)',
+            # r'(?<!\\)\$([^$\n\w][^$\n]*[^$\n\w])\$(?![\\\$])',
+            r'\$\$(.*?)\$\$',  # 行间$$...$$
+            r'\\\[(.*?)\\]',  # 行间\[...\]
+            r'\$(.*?)\$',  # 行内$...$
+            r'\\\((.*?)\\\)',  # 行内\(...\)
         ]
         
         for pattern in latex_patterns: