|
| 1 | +{"id": "sample-001-programming-tutorial", "html": "<html><body>\n <h1 cc-select=\"true\">Python编程教程</h1>\n <p cc-select=\"true\">这是一个Python基础教程,展示如何定义函数。</p>\n <pre cc-select=\"true\"><code>def greet(name):\n \"\"\"问候函数\"\"\"\n return f\"Hello, {name}!\"\n\n# 使用示例\nresult = greet(\"World\")\nprint(result)</code></pre>\n <p cc-select=\"true\">这个函数可以用来问候任何人。</p>\n </body></html>", "groundtruth_llm_webkit_md": "# Python编程教程\n\n这是一个Python基础教程,展示如何定义函数。\n\n```python\ndef greet(name):\n \"\"\"问候函数\"\"\"\n return f\"Hello, {name}!\"\n\n# 使用示例\nresult = greet(\"World\")\nprint(result)\n```\n\n这个函数可以用来问候任何人。", "groundtruth_content_list": [{"type": "heading", "content": "Python编程教程", "level": 1}, {"type": "paragraph", "content": "这是一个Python基础教程,展示如何定义函数。"}, {"type": "code", "content": "def greet(name):\n \"\"\"问候函数\"\"\"\n return f\"Hello, {name}!\"\n\n# 使用示例\nresult = greet(\"World\")\nprint(result)"}, {"type": "paragraph", "content": "这个函数可以用来问候任何人。"}], "llm_webkit_md": "# Python编程教程\n\n这是一个Python基础教程,展示如何定义函数。\n\n```python\ndef greet(name):\n \"\"\"问候函数\"\"\"\n return f\"Hello, {name}!\"\n\n# 使用示例\nresult = greet(\"World\")\nprint(result)\n```\n\n这个函数可以用来问候任何人。", "content_list": [{"type": "heading", "content": "Python编程教程", "level": 1}, {"type": "paragraph", "content": "这是一个Python基础教程,展示如何定义函数。"}, {"type": "code", "content": "def greet(name):\n \"\"\"问候函数\"\"\"\n return f\"Hello, {name}!\"\n\n# 使用示例\nresult = greet(\"World\")\nprint(result)"}, {"type": "paragraph", "content": "这个函数可以用来问候任何人。"}], "url": "https://python-tutorial.example.com/functions", "domain": null, "language": "en", "content_type": "programming", "difficulty": null, "tags": null} |
| 2 | +{"id": "sample-002-math-formulas", "html": "<html><body>\n <h1 cc-select=\"true\">数学公式示例</h1>\n <p cc-select=\"true\">这里展示一些基本的数学公式。</p>\n <p cc-select=\"true\">勾股定理:a² + b² = c²</p>\n <div cc-select=\"true\" class=\"formula\">\n <p>二次方程的解为:</p>\n <p>x = (-b ± √(b² - 4ac)) / 2a</p>\n </div>\n <p cc-select=\"true\">欧拉公式是数学中最美丽的公式之一:e^(iπ) + 1 = 0</p>\n <table cc-select=\"true\">\n <tr><th>函数</th><th>导数</th></tr>\n <tr><td>x²</td><td>2x</td></tr>\n <tr><td>sin(x)</td><td>cos(x)</td></tr>\n </table>\n </body></html>", "groundtruth_llm_webkit_md": "# 数学公式示例\n\n这里展示一些基本的数学公式。\n\n勾股定理:$a^2 + b^2 = c^2$\n\n二次方程的解为:\n\n$$x = \\frac{-b \\pm \\sqrt{b^2 - 4ac}}{2a}$$\n\n欧拉公式是数学中最美丽的公式之一:$e^{i\\pi} + 1 = 0$\n\n| 函数 | 导数 |\n|------|------|\n| x² | 2x |\n| sin(x) | cos(x) |", "groundtruth_content_list": [{"type": "heading", "content": "数学公式示例", "level": 1}, {"type": "paragraph", "content": "这里展示一些基本的数学公式。"}, {"type": "paragraph", "content": "勾股定理:a² + b² = c²"}, {"type": "paragraph", "content": "二次方程的解为:"}, {"type": "equation-interline", "content": "x = \\frac{-b \\pm \\sqrt{b^2 - 4ac}}{2a}"}, {"type": "paragraph", "content": "欧拉公式是数学中最美丽的公式之一:e^(iπ) + 1 = 0"}, {"type": "table", "content": "| 函数 | 导数 |\n|------|------|\n| x² | 2x |\n| sin(x) | cos(x) |"}], "llm_webkit_md": "# 数学公式示例\n\n这里展示一些基本的数学公式。\n\n勾股定理:$a^2 + b^2 = c^2$\n\n二次方程的解为:\n\n$$x = \\frac{-b \\pm \\sqrt{b^2 - 4ac}}{2a}$$\n\n欧拉公式是数学中最美丽的公式之一:$e^{i\\pi} + 1 = 0$\n\n| 函数 | 导数 |\n|------|------|\n| x² | 2x |\n| sin(x) | cos(x) |", "content_list": [{"type": "heading", "content": "数学公式示例", "level": 1}, {"type": "paragraph", "content": "这里展示一些基本的数学公式。"}, {"type": "paragraph", "content": "勾股定理:a² + b² = c²"}, {"type": "paragraph", "content": "二次方程的解为:"}, {"type": "equation-interline", "content": "x = \\frac{-b \\pm \\sqrt{b^2 - 4ac}}{2a}"}, {"type": "paragraph", "content": "欧拉公式是数学中最美丽的公式之一:e^(iπ) + 1 = 0"}, {"type": "table", "content": "| 函数 | 导数 |\n|------|------|\n| x² | 2x |\n| sin(x) | cos(x) |"}], "url": "https://math-examples.edu/formulas", "domain": null, "language": "zh", "content_type": "academic", "difficulty": null, "tags": null} |
| 3 | +{"id": "sample-003-data-analysis", "html": "<html><body>\n <h1 cc-select=\"true\">数据分析报告</h1>\n <p cc-select=\"true\">以下是2024年第一季度的销售数据分析。</p>\n <h2 cc-select=\"true\">数据处理代码</h2>\n <pre cc-select=\"true\"><code>import pandas as pd\nimport numpy as np\n\n# 读取数据\ndf = pd.read_csv('sales_q1_2024.csv')\n\n# 计算统计信息\nmonthly_avg = df.groupby('month')['sales'].mean()\nprint(f\"平均销售额: {monthly_avg}\")</code></pre>\n <h2 cc-select=\"true\">销售统计</h2>\n <table cc-select=\"true\">\n <tr><th>月份</th><th>销售额(万元)</th><th>增长率</th></tr>\n <tr><td>1月</td><td>120.5</td><td>+15.2%</td></tr>\n <tr><td>2月</td><td>135.8</td><td>+12.7%</td></tr>\n <tr><td>3月</td><td>148.3</td><td>+9.2%</td></tr>\n </table>\n <p cc-select=\"true\">标准差公式:σ = √(Σ(xi - μ)² / n)</p>\n <p cc-select=\"true\">总体来看,第一季度销售表现良好,呈现稳定增长趋势。</p>\n </body></html>", "groundtruth_llm_webkit_md": "# 数据分析报告\n\n以下是2024年第一季度的销售数据分析。\n\n## 数据处理代码\n\n```python\nimport pandas as pd\nimport numpy as np\n\n# 读取数据\ndf = pd.read_csv('sales_q1_2024.csv')\n\n# 计算统计信息\nmonthly_avg = df.groupby('month')['sales'].mean()\nprint(f\"平均销售额: {monthly_avg}\")\n```\n\n## 销售统计\n\n| 月份 | 销售额(万元) | 增长率 |\n|------|-------------|--------|\n| 1月 | 120.5 | +15.2% |\n| 2月 | 135.8 | +12.7% |\n| 3月 | 148.3 | +9.2% |\n\n标准差公式:$\\sigma = \\sqrt{\\frac{\\Sigma(x_i - \\mu)^2}{n}}$\n\n总体来看,第一季度销售表现良好,呈现稳定增长趋势。", "groundtruth_content_list": [{"type": "heading", "content": "数据分析报告", "level": 1}, {"type": "paragraph", "content": "以下是2024年第一季度的销售数据分析。"}, {"type": "heading", "content": "数据处理代码", "level": 2}, {"type": "code", "content": "import pandas as pd\nimport numpy as np\n\n# 读取数据\ndf = pd.read_csv('sales_q1_2024.csv')\n\n# 计算统计信息\nmonthly_avg = df.groupby('month')['sales'].mean()\nprint(f\"平均销售额: {monthly_avg}\")"}, {"type": "heading", "content": "销售统计", "level": 2}, {"type": "table", "content": "| 月份 | 销售额(万元) | 增长率 |\n|------|-------------|--------|\n| 1月 | 120.5 | +15.2% |\n| 2月 | 135.8 | +12.7% |\n| 3月 | 148.3 | +9.2% |"}, {"type": "paragraph", "content": "标准差公式:σ = √(Σ(xi - μ)² / n)"}, {"type": "paragraph", "content": "总体来看,第一季度销售表现良好,呈现稳定增长趋势。"}], "llm_webkit_md": "# 数据分析报告\n\n以下是2024年第一季度的销售数据分析。\n\n## 数据处理代码\n\n```python\nimport pandas as pd\nimport numpy as np\n\n# 读取数据\ndf = pd.read_csv('sales_q1_2024.csv')\n\n# 计算统计信息\nmonthly_avg = df.groupby('month')['sales'].mean()\nprint(f\"平均销售额: {monthly_avg}\")\n```\n\n## 销售统计\n\n| 月份 | 销售额(万元) | 增长率 |\n|------|-------------|--------|\n| 1月 | 120.5 | +15.2% |\n| 2月 | 135.8 | +12.7% |\n| 3月 | 148.3 | +9.2% |\n\n标准差公式:$\\sigma = \\sqrt{\\frac{\\Sigma(x_i - \\mu)^2}{n}}$\n\n总体来看,第一季度销售表现良好,呈现稳定增长趋势。", "content_list": [{"type": "heading", "content": "数据分析报告", "level": 1}, {"type": "paragraph", "content": "以下是2024年第一季度的销售数据分析。"}, {"type": "heading", "content": "数据处理代码", "level": 2}, {"type": "code", "content": "import pandas as pd\nimport numpy as np\n\n# 读取数据\ndf = pd.read_csv('sales_q1_2024.csv')\n\n# 计算统计信息\nmonthly_avg = df.groupby('month')['sales'].mean()\nprint(f\"平均销售额: {monthly_avg}\")"}, {"type": "heading", "content": "销售统计", "level": 2}, {"type": "table", "content": "| 月份 | 销售额(万元) | 增长率 |\n|------|-------------|--------|\n| 1月 | 120.5 | +15.2% |\n| 2月 | 135.8 | +12.7% |\n| 3月 | 148.3 | +9.2% |"}, {"type": "paragraph", "content": "标准差公式:σ = √(Σ(xi - μ)² / n)"}, {"type": "paragraph", "content": "总体来看,第一季度销售表现良好,呈现稳定增长趋势。"}], "url": "https://data-report.company.com/q1-2024-analysis", "domain": null, "language": "zh", "content_type": "business", "difficulty": null, "tags": null} |
| 4 | +{"id": "sample-004-algorithm-explanation", "html": "<html><body>\n <h1 cc-select=\"true\">算法复杂度分析</h1>\n <p cc-select=\"true\">这里介绍常见算法的时间复杂度。</p>\n <h2 cc-select=\"true\">快速排序实现</h2>\n <pre cc-select=\"true\"><code>def quicksort(arr):\n if len(arr) <= 1:\n return arr\n \n pivot = arr[len(arr) // 2]\n left = [x for x in arr if x < pivot]\n middle = [x for x in arr if x == pivot]\n right = [x for x in arr if x > pivot]\n \n return quicksort(left) + middle + quicksort(right)</code></pre>\n <h2 cc-select=\"true\">复杂度对比</h2>\n <table cc-select=\"true\">\n <tr><th>算法</th><th>最好情况</th><th>平均情况</th><th>最坏情况</th></tr>\n <tr><td>快速排序</td><td>O(n log n)</td><td>O(n log n)</td><td>O(n²)</td></tr>\n <tr><td>归并排序</td><td>O(n log n)</td><td>O(n log n)</td><td>O(n log n)</td></tr>\n <tr><td>冒泡排序</td><td>O(n)</td><td>O(n²)</td><td>O(n²)</td></tr>\n </table>\n <p cc-select=\"true\">Master定理:T(n) = aT(n/b) + f(n)</p>\n <p cc-select=\"true\">其中 a ≥ 1, b > 1 是常数,f(n) 是正函数。</p>\n </body></html>", "groundtruth_llm_webkit_md": "# 算法复杂度分析\n\n这里介绍常见算法的时间复杂度。\n\n## 快速排序实现\n\n```python\ndef quicksort(arr):\n if len(arr) <= 1:\n return arr\n \n pivot = arr[len(arr) // 2]\n left = [x for x in arr if x < pivot]\n middle = [x for x in arr if x == pivot]\n right = [x for x in arr if x > pivot]\n \n return quicksort(left) + middle + quicksort(right)\n```\n\n## 复杂度对比\n\n| 算法 | 最好情况 | 平均情况 | 最坏情况 |\n|------|----------|----------|----------|\n| 快速排序 | O(n log n) | O(n log n) | O(n²) |\n| 归并排序 | O(n log n) | O(n log n) | O(n log n) |\n| 冒泡排序 | O(n) | O(n²) | O(n²) |\n\nMaster定理:$T(n) = aT(n/b) + f(n)$\n\n其中 $a \\geq 1, b > 1$ 是常数,$f(n)$ 是正函数。", "groundtruth_content_list": [{"type": "heading", "content": "算法复杂度分析", "level": 1}, {"type": "paragraph", "content": "这里介绍常见算法的时间复杂度。"}, {"type": "heading", "content": "快速排序实现", "level": 2}, {"type": "code", "content": "def quicksort(arr):\n if len(arr) <= 1:\n return arr\n \n pivot = arr[len(arr) // 2]\n left = [x for x in arr if x < pivot]\n middle = [x for x in arr if x == pivot]\n right = [x for x in arr if x > pivot]\n \n return quicksort(left) + middle + quicksort(right)"}, {"type": "heading", "content": "复杂度对比", "level": 2}, {"type": "table", "content": "| 算法 | 最好情况 | 平均情况 | 最坏情况 |\n|------|----------|----------|----------|\n| 快速排序 | O(n log n) | O(n log n) | O(n²) |\n| 归并排序 | O(n log n) | O(n log n) | O(n log n) |\n| 冒泡排序 | O(n) | O(n²) | O(n²) |"}, {"type": "equation-inline", "content": "T(n) = aT(n/b) + f(n)"}, {"type": "paragraph", "content": "其中 a ≥ 1, b > 1 是常数,f(n) 是正函数。"}], "llm_webkit_md": "# 算法复杂度分析\n\n这里介绍常见算法的时间复杂度。\n\n## 快速排序实现\n\n```python\ndef quicksort(arr):\n if len(arr) <= 1:\n return arr\n \n pivot = arr[len(arr) // 2]\n left = [x for x in arr if x < pivot]\n middle = [x for x in arr if x == pivot]\n right = [x for x in arr if x > pivot]\n \n return quicksort(left) + middle + quicksort(right)\n```\n\n## 复杂度对比\n\n| 算法 | 最好情况 | 平均情况 | 最坏情况 |\n|------|----------|----------|----------|\n| 快速排序 | O(n log n) | O(n log n) | O(n²) |\n| 归并排序 | O(n log n) | O(n log n) | O(n log n) |\n| 冒泡排序 | O(n) | O(n²) | O(n²) |\n\nMaster定理:$T(n) = aT(n/b) + f(n)$\n\n其中 $a \\geq 1, b > 1$ 是常数,$f(n)$ 是正函数。", "content_list": [{"type": "heading", "content": "算法复杂度分析", "level": 1}, {"type": "paragraph", "content": "这里介绍常见算法的时间复杂度。"}, {"type": "heading", "content": "快速排序实现", "level": 2}, {"type": "code", "content": "def quicksort(arr):\n if len(arr) <= 1:\n return arr\n \n pivot = arr[len(arr) // 2]\n left = [x for x in arr if x < pivot]\n middle = [x for x in arr if x == pivot]\n right = [x for x in arr if x > pivot]\n \n return quicksort(left) + middle + quicksort(right)"}, {"type": "heading", "content": "复杂度对比", "level": 2}, {"type": "table", "content": "| 算法 | 最好情况 | 平均情况 | 最坏情况 |\n|------|----------|----------|----------|\n| 快速排序 | O(n log n) | O(n log n) | O(n²) |\n| 归并排序 | O(n log n) | O(n log n) | O(n log n) |\n| 冒泡排序 | O(n) | O(n²) | O(n²) |"}, {"type": "equation-inline", "content": "T(n) = aT(n/b) + f(n)"}, {"type": "paragraph", "content": "其中 a ≥ 1, b > 1 是常数,f(n) 是正函数。"}], "url": "https://algorithm-guide.cs.edu/complexity-analysis", "domain": null, "language": "zh", "content_type": "computer_science", "difficulty": null, "tags": null} |
0 commit comments