alphaGo的前世今生,并不那么玄乎
2017-10-30 00:06
225 查看
David Silver 是AlphaGo的操刀者,一直从事Go的AI研究。
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Publications.html
从2007年David Silver与S.Gelly 合作写的《Combining Online and Offline Learningin
UCT》,ICML2017 时间大浪淘沙奖(10年沉淀之精华)在UCT基础上增加了offline learning,提出了在将在线学习与离线棋谱的学习结合起来,RL里分为决策网络(Policy network,下一步棋子放到哪个点)、价值网络(value network,当前选择到最后是赢的记为1,输为0,反向传到到当前决策所得的值,因为都有一定的概率所有当前的值一般是0-1之间的概率值)。在这篇论文中Offline learning提到“MCTS + RAVE + Simple Value
Function + Rollouts with custom play ”,主要创新点是将棋谱引入到离线学习得到下一步(尤其是在之前没有遇到过的情况下)应该下哪一步。
在后续近10年间一直持续做Go相关的研究优化。
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Publications.html
都在研究怎么充分利用离线知识(人工棋谱知识)。每隔一段时间都有一点进步,从9*9的棋盘到19*19的棋牌。
《Mastering the Game of Go with Deep NeuralNetworks
and Tree Search》
在2016年发表到nature,成功战胜世界冠军。从传统的RL,到引入深度学习的RL,将棋谱的特征巧妙的作为图片信息,19*19的棋谱就是19*19的像素,输入到cnn+dnn网络,策略网络、值网络都引入深度学习模型。
2017年10月又在nature上发表了《Mastering the Game of Go without HumanKnowledge. 》
返璞归真,不用离线知识学习了(感觉回到2007年之前了,虽然2017年8月刚因为引入离线学习得到ICML2017的 Test Of Time reward),而直接用增强学习搞定一切,并且将Policy Network、Value Network权值共享。
这一篇引来朋友圈一大片热潮,欢呼人工智能时代的真正到来,但是这是在规则确定明确的场景,在很多需要标注的场景还是玩的不太开,需要外部给予反馈,而围棋场景最终反馈是确定了。不过从研究角度看出,如果要深耕一个领域真的要有十足的耐心、长久的坚持并且持续创新引领,并且时不时回过头来review下以前的方向是否在新时代下是否用新的方法是否可以更上一层楼!
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Publications.html
从2007年David Silver与S.Gelly 合作写的《Combining Online and Offline Learningin
UCT》,ICML2017 时间大浪淘沙奖(10年沉淀之精华)在UCT基础上增加了offline learning,提出了在将在线学习与离线棋谱的学习结合起来,RL里分为决策网络(Policy network,下一步棋子放到哪个点)、价值网络(value network,当前选择到最后是赢的记为1,输为0,反向传到到当前决策所得的值,因为都有一定的概率所有当前的值一般是0-1之间的概率值)。在这篇论文中Offline learning提到“MCTS + RAVE + Simple Value
Function + Rollouts with custom play ”,主要创新点是将棋谱引入到离线学习得到下一步(尤其是在之前没有遇到过的情况下)应该下哪一步。
在后续近10年间一直持续做Go相关的研究优化。
http://www0.cs.ucl.ac.uk/staff/d.silver/web/Publications.html
都在研究怎么充分利用离线知识(人工棋谱知识)。每隔一段时间都有一点进步,从9*9的棋盘到19*19的棋牌。
《Mastering the Game of Go with Deep NeuralNetworks
and Tree Search》
在2016年发表到nature,成功战胜世界冠军。从传统的RL,到引入深度学习的RL,将棋谱的特征巧妙的作为图片信息,19*19的棋谱就是19*19的像素,输入到cnn+dnn网络,策略网络、值网络都引入深度学习模型。
2017年10月又在nature上发表了《Mastering the Game of Go without HumanKnowledge. 》
返璞归真,不用离线知识学习了(感觉回到2007年之前了,虽然2017年8月刚因为引入离线学习得到ICML2017的 Test Of Time reward),而直接用增强学习搞定一切,并且将Policy Network、Value Network权值共享。
这一篇引来朋友圈一大片热潮,欢呼人工智能时代的真正到来,但是这是在规则确定明确的场景,在很多需要标注的场景还是玩的不太开,需要外部给予反馈,而围棋场景最终反馈是确定了。不过从研究角度看出,如果要深耕一个领域真的要有十足的耐心、长久的坚持并且持续创新引领,并且时不时回过头来review下以前的方向是否在新时代下是否用新的方法是否可以更上一层楼!
相关文章推荐
- 成功并不像你想像的那么难
- 原来并不那么神秘
- 成功并不像你想像的那么难
- Objective-C并不像看起来的那么难
- 管理故事216之015-成功并不像你想像的那么难--回windoze(瞌睡窗)
- 成功并不像你想象的那么难
- 成功并不像你想像的那么难
- 成功并不像你想像的那么难
- Objective-C并不像看起来的那么难[转]
- 从JAVA向C++转变并不那么简单
- 成功并不像你想象的那么难
- 成功并不像你想像的那么难
- 观点:成功并不像你想像的那么难
- 从JAVA向C++转变并不那么简单
- 成功并不像你想像的那么难
- 成功并不像你想像的那么难
- 成功并不像你想像的那么难
- 成功并不像你想像的那么难
- 打印质数的算法----基于算法复杂度的考虑,很多问题并不那么简单
- 设计模式并不那么遥不可及