您的位置:首页 > 其它

强化学习(五)---基于模型的强化学习实战

2018-04-08 15:39 197 查看
有一个4*4的矩阵,0和15代表出口

















结果输出第一个矩阵一共输出16个向量,每个向量里面的位置代表,在当前状态往哪里走比较好,第二个矩阵对第一个矩阵进行统计处理,更加直观,也是表示在16个状态,每个位置最好的动作方向
参考资料:唐宇迪视频
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐