修改算法实现部分错误

wgyhhhh · wgyhhhh · commit 7c6c1ff72f95 · 2025-11-19T11:00:32.000+08:00
diff --git a/docs/python/code.ipynb b/docs/python/code.ipynb
@@ -10,7 +10,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": 5,
    "id": "e1014345",
    "metadata": {},
    "outputs": [],
@@ -40,7 +40,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 2,
+   "execution_count": 6,
    "id": "857723f4",
    "metadata": {},
    "outputs": [],
@@ -58,7 +58,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 3,
+   "execution_count": 7,
    "id": "10f962e5",
    "metadata": {},
    "outputs": [],
@@ -208,7 +208,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
+   "execution_count": 11,
    "id": "1b269f11",
    "metadata": {},
    "outputs": [],
@@ -251,14 +251,15 @@
     "        # 移除gym依赖，手动定义动作空间和观测空间\n",
     "        self.action_space_size = 5  # 5个动作：停留、上、右、下、左\n",
     "        \n",
-    "        # 动作到方向向量的映射\n",
+    "        \n",
+    "        # 动作到方向向量的映射（使用行列坐标）\n",
     "        self.action_to_direction = {\n",
     "            0: np.array([0, 0]),   # 停留\n",
-    "            1: np.array([0, 1]),   # 上\n",
-    "            2: np.array([1, 0]),   # 右\n",
-    "            3: np.array([0, -1]),  # 下\n",
-    "            4: np.array([-1, 0]),  # 左\n",
-    "        }\n",
+    "            1: np.array([-1, 0]),  # 上（row减小，col不变）\n",
+    "            2: np.array([0, 1]),   # 右（row不变，col增大）\n",
+    "            3: np.array([1, 0]),   # 下（row增大，col不变）\n",
+    "            4: np.array([0, -1]),  # 左（row不变，col减小）\n",
+    "}\n",
     "\n",
     "        self.reward_list = reward_list if reward_list is not None else [0, 1, -10, -1]\n",
     "\n",
@@ -361,7 +362,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 5,
+   "execution_count": 9,
    "id": "6e687781",
    "metadata": {},
    "outputs": [],
@@ -512,7 +513,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 6,
+   "execution_count": 12,
    "id": "8ee18b4d",
    "metadata": {},
    "outputs": [
@@ -530,33 +531,33 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "算法耗时: 0.1589 秒, 剩余迭代次数: 903\n",
+      "算法耗时: 0.1376 秒, 剩余迭代次数: 903\n",
       "策略矩阵:\n",
-      "[[0. 0. 1. 0. 0.]\n",
+      "[[0. 0. 0. 1. 0.]\n",
+      " [0. 0. 0. 0. 1.]\n",
+      " [0. 0. 0. 0. 1.]\n",
+      " [0. 0. 0. 0. 1.]\n",
+      " [0. 0. 0. 0. 1.]\n",
       " [0. 0. 0. 1. 0.]\n",
+      " [0. 0. 0. 0. 1.]\n",
+      " [0. 1. 0. 0. 0.]\n",
       " [0. 0. 0. 1. 0.]\n",
       " [0. 0. 0. 1. 0.]\n",
       " [0. 0. 0. 1. 0.]\n",
-      " [0. 0. 1. 0. 0.]\n",
       " [0. 0. 0. 1. 0.]\n",
-      " [0. 0. 0. 0. 1.]\n",
-      " [0. 0. 1. 0. 0.]\n",
       " [0. 0. 1. 0. 0.]\n",
+      " [1. 0. 0. 0. 0.]\n",
+      " [0. 0. 0. 0. 1.]\n",
       " [0. 0. 1. 0. 0.]\n",
       " [0. 0. 1. 0. 0.]\n",
-      " [0. 1. 0. 0. 0.]\n",
-      " [1. 0. 0. 0. 0.]\n",
       " [0. 0. 0. 1. 0.]\n",
       " [0. 1. 0. 0. 0.]\n",
       " [0. 1. 0. 0. 0.]\n",
       " [0. 0. 1. 0. 0.]\n",
-      " [0. 0. 0. 0. 1.]\n",
-      " [0. 0. 0. 0. 1.]\n",
-      " [0. 1. 0. 0. 0.]\n",
-      " [0. 1. 0. 0. 0.]\n",
-      " [0. 1. 0. 0. 0.]\n",
-      " [0. 1. 0. 0. 0.]\n",
-      " [0. 0. 0. 0. 1.]]\n",
+      " [0. 0. 1. 0. 0.]\n",
+      " [0. 0. 1. 0. 0.]\n",
+      " [0. 0. 1. 0. 0.]\n",
+      " [0. 1. 0. 0. 0.]]\n",
       "状态值函数:\n",
       "[3.48645648 3.13777804 2.82396745 2.54153791 2.28735133 3.87387697\n",
       " 3.48645648 2.54153791 9.99967208 8.99967208 4.30434418 4.78264108\n",