您的位置：首页 > 编程语言 > Go语言

alphaGo的前世今生，并不那么玄乎

2017-10-30 00:06 225 查看

David Silver 是AlphaGo的操刀者，一直从事Go的AI研究。

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Publications.html

从2007年David Silver与S.Gelly 合作写的《Combining Online and Oﬄine Learningin
UCT》，ICML2017 时间大浪淘沙奖（10年沉淀之精华）在UCT基础上增加了offline learning，提出了在将在线学习与离线棋谱的学习结合起来，RL里分为决策网络（Policy network，下一步棋子放到哪个点）、价值网络(value network，当前选择到最后是赢的记为1，输为0，反向传到到当前决策所得的值，因为都有一定的概率所有当前的值一般是0-1之间的概率值)。在这篇论文中Offline learning提到“MCTS + RAVE + Simple Value
Function + Rollouts with custom play ”，主要创新点是将棋谱引入到离线学习得到下一步（尤其是在之前没有遇到过的情况下）应该下哪一步。

在后续近10年间一直持续做Go相关的研究优化。

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Publications.html

都在研究怎么充分利用离线知识（人工棋谱知识）。每隔一段时间都有一点进步，从9*9的棋盘到19*19的棋牌。

《Mastering the Game of Go with Deep NeuralNetworks
and Tree Search》

在2016年发表到nature，成功战胜世界冠军。从传统的RL，到引入深度学习的RL，将棋谱的特征巧妙的作为图片信息，19*19的棋谱就是19*19的像素，输入到cnn+dnn网络，策略网络、值网络都引入深度学习模型。

2017年10月又在nature上发表了《Mastering the Game of Go without HumanKnowledge. 》

返璞归真，不用离线知识学习了（感觉回到2007年之前了，虽然2017年8月刚因为引入离线学习得到ICML2017的 Test Of Time reward），而直接用增强学习搞定一切，并且将Policy Network、Value Network权值共享。

这一篇引来朋友圈一大片热潮，欢呼人工智能时代的真正到来，但是这是在规则确定明确的场景，在很多需要标注的场景还是玩的不太开，需要外部给予反馈，而围棋场景最终反馈是确定了。不过从研究角度看出，如果要深耕一个领域真的要有十足的耐心、长久的坚持并且持续创新引领，并且时不时回过头来review下以前的方向是否在新时代下是否用新的方法是否可以更上一层楼！

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： ai go dnn alphago 人工智能

相关文章推荐

新的分享

章节导航