运动规划是强化学习一个较为常见的应用场景,这次实验我们的任务是使用强化学习中的Q-表格 方法解决一个简单的迷宫寻路问题。该算法的应用场景是开源环境库gym中的CiffWalking-v0环境。 CiffWalking-v0环境 该环境的大小是一个4*12的网格,智能体以网格的左下角 ...