📝 Update some notes

wgyhhhh · wgyhhhh · commit 2ac8eca241c2 · 2026-04-02T19:19:44.000+08:00
diff --git a/.history/docs/Preface1_20260402191930.md b/.history/docs/Preface1_20260402191930.md
@@ -0,0 +1,12 @@
+---
+title: 第一版序言
+comments: true  # 开启评论
+---
+
+2016年，AlphaGo击败围棋世界冠军李世石，被认为是强化学习（RL）领域的里程碑事件。强化学习在各类棋类游戏、即时战略以及系统性能优化中的卓越表现，验证了其在不断进步和提升能力方面的巨大潜力。进入2025年，强化学习迅速席卷大模型领域，尤其在LLM（大型语言模型）的后训练时代，展现出了巨大的价值。后训练旨在通过少量的高质量样本，使模型适应新的任务，并生成相应的数据分布。强化学习的这一学习范式与后训练优化方向高度契合——它通过在动态变化的数据分布中主动学习，并在与环境交互的过程中寻找长期回报最高的策略。了解基础强化学习背后的理论知识，在当今时代变得愈发重要。
+
+赵世钰老师的《强化学习中的数学原理》无疑是最适合作为强化学习领域入门的课程之一，笔者历经三个星期左右的时间，终于把这本《强化学习中的数学原理》课程笔记写完，由于在GitHub的版本只有英文版，所以我在学习的过程中也是一边翻译一边做笔记，当然这套笔记还存在着一些问题，需要我在未来的时间里慢慢修订打磨。
+
+强化学习中的一个基本概念是探索与利用的权衡问题。如何在二者之间取得平衡，以在环境中学习到最优策略，是算法设计的关键。若未充分探索便过早利用，可能导致模型陷入局部最优甚至无法收敛。因此，笔者希望读者及自身在研究过程中，能够拓宽视野，不局限于本书内容。鉴于强化学习领域发展迅速，应积极关注前沿研究，从而发现并确立真正的研究兴趣所在。
+
+本笔记的开源版本托管于GitHub，仓库名为"[Mathematical-Foundations-of-Reinforcement-Learning-Notes](https://github.com/wgyhhhh/Mathematical-Foundations-of-Reinforcement-Learning-Notes)"。
diff --git a/.history/docs/Preface2_20260402191925.md b/.history/docs/Preface2_20260402191925.md
@@ -0,0 +1,10 @@
+---
+title: 第二版序言
+comments: true  # 开启评论
+---
+
+2025 年，DeepSeek-R1 的出现成为后训练创新的里程碑，其摒弃了传统的有监督微调（SFT），转向链式思维推理和探索性强化学习策略，有效验证了强化学习驱动推理激励在开放研究范式下的有效性，并引入了蒸馏技术，将复杂推理模式从大模型迁移到小模型。
+
+在过去几个月中，笔者初步探索了后训练强化学习领域，并复现了若干经典算法。在复现过程中，笔者发现，许多网上和视频教程对这些算法的讲解往往只有原理解析而缺乏代码实现，或仅有代码复现而没有理论讲解。而两者都有的教程往往有“造轮子”的问题，难以与主流开源框架结合。因此，笔者决定在现有笔记的基础上，新增一个专题，详细剖析各个算法的理论知识与主流开源框架，并记录下自己在学习和复现过程中遇到的问题与解决方案，以供大家参考。
+
+[2026.4.2]读者正在整理笔记中，并将在更新笔记后同步更新网页UI，以给大家更好的阅读体验。
diff --git a/.history/docs/index_20260402191900.md b/.history/docs/index_20260402191900.md
@@ -0,0 +1,16 @@
+---
+title: 欢迎页面
+comments: true  # 开启评论
+---
+
+# 欢迎
+
+本笔记是对赵世钰老师所著《强化学习中的数学原理》的个人思考与总结，笔者将其做成了网页模式，方便大家随时随地在掌上设备阅读。在此基础上，我还补充了对书中核心算法的实现，以便读者能获得更直观的理解。书中首先从基础概念入手，讲解Bellman公式和Bellman最优公式，接着扩展到基于模型（model-based）和无模型（model-free）的强化学习算法，最终推广到基于函数逼近的强化学习算法。若读者在强化学习方面没有背景知识，只需具备一定的线性代数和概率论基础即可阅读本书。而对于已有一些强化学习知识的读者，本笔记则可以帮助他们深入理解相关问题。
+
+# 说明
+
+1. 本笔记并不仅仅希望翻译原书，而是同步实现书中的一些例子和算法。这些代码在[(核心算法实现)](https://wgyhhh.top/Mathematical-Foundations-of-Reinforcement-Learning-Notes/python/code/)中可以找到，笔者正在积极实现更多算法。同时笔者希望通过网页嵌入IDE使得读者可以在网页端运行代码，正在找寻方法实现此功能。
+2. 本笔记在每个页面最下方均添加了讨论区，以供大家友好地进行讨论。
+3. 关于若干定理的证明，笔者暂时没有把他们整理到笔记当中，预计将在今年6月前完成对关键证明的整理和补充。
+4. 由于本人的知识水平有限，对于一些地方的翻译和解释可能不到位，也欢迎大家发现问题后及时发布issue或者在问题当页发布评论。
+5. 关于原书参考文献问题，笔者暂时没有将其同步到该笔记中，预计将在今年5月前解决该问题。
diff --git a/docs/Preface1.md b/docs/Preface1.md
@@ -1,3 +1,8 @@
+---
+title: 第一版序言
+comments: true  # 开启评论
+---
+
 2016年，AlphaGo击败围棋世界冠军李世石，被认为是强化学习（RL）领域的里程碑事件。强化学习在各类棋类游戏、即时战略以及系统性能优化中的卓越表现，验证了其在不断进步和提升能力方面的巨大潜力。进入2025年，强化学习迅速席卷大模型领域，尤其在LLM（大型语言模型）的后训练时代，展现出了巨大的价值。后训练旨在通过少量的高质量样本，使模型适应新的任务，并生成相应的数据分布。强化学习的这一学习范式与后训练优化方向高度契合——它通过在动态变化的数据分布中主动学习，并在与环境交互的过程中寻找长期回报最高的策略。了解基础强化学习背后的理论知识，在当今时代变得愈发重要。
 
 赵世钰老师的《强化学习中的数学原理》无疑是最适合作为强化学习领域入门的课程之一，笔者历经三个星期左右的时间，终于把这本《强化学习中的数学原理》课程笔记写完，由于在GitHub的版本只有英文版，所以我在学习的过程中也是一边翻译一边做笔记，当然这套笔记还存在着一些问题，需要我在未来的时间里慢慢修订打磨。
diff --git a/docs/Preface2.md b/docs/Preface2.md
@@ -1,3 +1,8 @@
+---
+title: 第二版序言
+comments: true  # 开启评论
+---
+
 2025 年，DeepSeek-R1 的出现成为后训练创新的里程碑，其摒弃了传统的有监督微调（SFT），转向链式思维推理和探索性强化学习策略，有效验证了强化学习驱动推理激励在开放研究范式下的有效性，并引入了蒸馏技术，将复杂推理模式从大模型迁移到小模型。
 
 在过去几个月中，笔者初步探索了后训练强化学习领域，并复现了若干经典算法。在复现过程中，笔者发现，许多网上和视频教程对这些算法的讲解往往只有原理解析而缺乏代码实现，或仅有代码复现而没有理论讲解。而两者都有的教程往往有“造轮子”的问题，难以与主流开源框架结合。因此，笔者决定在现有笔记的基础上，新增一个专题，详细剖析各个算法的理论知识与主流开源框架，并记录下自己在学习和复现过程中遇到的问题与解决方案，以供大家参考。
diff --git a/docs/index.md b/docs/index.md
@@ -1,3 +1,8 @@
+---
+title: 欢迎页面
+comments: true  # 开启评论
+---
+
 # 欢迎
 
 本笔记是对赵世钰老师所著《强化学习中的数学原理》的个人思考与总结，笔者将其做成了网页模式，方便大家随时随地在掌上设备阅读。在此基础上，我还补充了对书中核心算法的实现，以便读者能获得更直观的理解。书中首先从基础概念入手，讲解Bellman公式和Bellman最优公式，接着扩展到基于模型（model-based）和无模型（model-free）的强化学习算法，最终推广到基于函数逼近的强化学习算法。若读者在强化学习方面没有背景知识，只需具备一定的线性代数和概率论基础即可阅读本书。而对于已有一些强化学习知识的读者，本笔记则可以帮助他们深入理解相关问题。