您的位置:首页 > 编程语言 > Go语言

AlphaGo 真的如此重要么?

2016-04-03 19:37 330 查看

AlphaGo 真的如此重要么?

转载请注明!

围棋对弈程序捕捉人的直觉元素,指望产生深远结果的预知。



1997年,IBM的Deep Blue系统击败了国际象棋世界冠军Garry Kasparov。当时,胜利被广泛描述为人工智能的里程碑。但Deep Blue的技术被证明是只对国际象棋有用的,仅此而已。计算机科学没有经受革命。

最近击败历史上最强的棋手的AlphaGo Go-playing系统有什么不同?

我相信答案是肯定的,但不是你可能已经听说过的原因。许多文章提出专家证据中说,围棋比象棋更难,使得这场胜利更令人印象深刻。或者他们说,我们认为再过10年电脑才能在围棋上胜利,所以这是一个更大的突破。有些文章提供(正确的!)意见,围棋比国际象棋有更多的潜力,但他们没有解释为什么对电脑来说更困难。

换句话说,这些争论没有解决核心问题:技术进步让AlphaGo成功会产生更广泛的影响么?要回答这个问题,首先要了解,引导AlphaGo的进步是质的不同,比Deep Blue更重要。

在国际象棋,新手玩家被教过一枚棋子的价值的概念。在一个系统中,骑士或主教可抵卒。车,它具有了更大的活动范围,相当于5个走卒。里面有最大范围的王后,等价于9个走卒。一个国王有无限的价值,因为失去它意味着输掉了比赛。

您可以使用这些值来评估潜在的移动。放弃主教得到对手的车?这通常是一个好主意。放弃骑士和车换来了主教?这不是好主意。

价值观念对计算机国际象棋是至关重要的。大多数计算机象棋程序中搜索数百万或数十亿的动作和对策组合。我们的目标是为程序找到一个最大化程序棋盘局面最终值的动作序列,无论什么对手做出什么行为都将胜利。

早期的象棋程序使用简单的概念,像“一个主教等于三个走卒”评估棋盘局面.但后来程序中使用的更详细的象棋知识。例如Deep Blue结合在函数中结合超过8000不同的因素用于评价棋盘局面。Deep Blue不只是说一个车等于五个走卒。如果相同颜色卒子在车前面,卒子行动限制车的运动范围,从而减少车的价值。但是,如果卒子是levered,这意味着它可以通过捕获敌方卒子,扩大车的运动范围,Deep Blue认为卒子半透明的,不可能过多的减少车的价值。

这样的想法依赖于国际象棋的详细了解,对Deep Blue的成功是至关重要。据Deep Blue小组撰写的技术论文,这个半透明levered 卒子概念的是第二轮游戏Deep Blue击败Kasparov至关重要的原因。

最终,Deep Blue开发人员使用两种主要观点。首先是建立一个包含许多详细的象棋知识,以评估任何给定棋盘局面的函数。第二种是利用巨大的计算能力来评估大量可能的局面,挑选出将导致最可能的最终棋盘局面动作。

如果应用此策略,Go会发生什么?

事实证明,你尝试时会遇到一个棘手的问题。问题的关键在于搞清楚如何评价棋盘局面。顶级棋手使用了大量的直觉在判断特定的棋盘局面有多好。而且目前尚不清楚该怎样简单表达这种直觉,定义良好的象棋棋子估值系统。

现在,你可能会认为这只是一个发现评估棋盘局面好方法的问题。不幸的是,即使经过几十年的尝试,用传统的方法仍无法做到这一点.没有成功应用国际象棋搜索策略的方法,Go程序仍然令人失望。这在2006年开始改变,引进的所谓蒙特卡洛树搜索算法,这是试图根据随机模拟游戏来评价棋盘局面。但围棋程序仍远远逊于人类棋手的能力。仿佛棋盘局面的强烈直觉是成功的关键。

AlphaGo如此新颖,重要是因为其开发者已经找到了处理类似的直觉的方法。

要解释它是如何工作的,让我描述了AlphaGo系统。 (该系统的细节因为AlphaGo对阵李世石的比赛有所改善,但主要的处理原则保持不变。)

首先,AlphaGo选取15万场人类优秀棋手的比赛,使用人工神经网络查找这些游戏模式。特别是,它学习到以高概率预测任何给定的位置人类棋采取什么移动。然后AlphaGo的设计师在早期版本通过反复和他游戏提高神经网络,调整网络使其逐步完善其胜算。

神经网络 - 被称为策略网络 - 如何学会预测好棋?

从广义上讲,神经网络是一个非常复杂的数学模型,百万计的参数需要调整,以改变模型的行为。当我说网络“学习”我的意思是,计算机不断对模型中的参数做出微小的调整,试图找到一种使相应在其比赛中相对稍微提升的改进方法。在学习的第一阶段中,网络试图增加和人类棋手同样动作的概率。在第二阶段中,它试图增加在自我发挥赢得比赛的概率。这听起来像一个疯狂的战略,但如果做了足够长的时间,有足够的计算能力,能够得到相当不错的网络。而这里的奇怪的事情:没有人能真正理解它变好的原因,因为数百亿自动进行细小调整的结果。

讲过两个训练阶段后,在同一水平作为业余爱好者策略网络可以很好的下围棋。但达到专业棋手水平还需要很长的路要走。为了提高业余水平,AlphaGo需要估计这些局面的值的方法。

为了克服这一障碍,开发者的核心思想是AlphaGo 策略网络和它本身下棋,以获得什么样棋盘局面可能胜利的估计。赢的概率提供局面的粗略估值。 (在实践中,AlphaGo使用的想法稍微复杂一点。)然后,AlphaGo结合这种方法来评估许多可能的线路搜索,偏置其搜索为策略网络的可能行为。然后,它选取具有最高效的棋盘评价的行动。

我们可以从这个看出AlphaGo没有基于围棋的知识建立评价系统,如Deep Blue对国际象棋做的。相反,通过对数千场棋手比赛和自我比赛进行分析,AlphaGo通过数十亿的微小调整政策网络,每次目的是为了得到一个很小的增量改进。反过来,帮助AlphaGo建立一个评价体系,捕捉类似优秀棋手对不同棋盘局面的直觉。

通过这种方式,AlphaGo很多比Deep Blue更激进。由于计算的初期,计算机已经被用于搜索出最优已知函数的方法。Deep Blue的做法只是:旨在优化其形式函数进行搜索,虽然复杂,但大多表现出国际象棋知识。

AlphaGo还采用了搜索和优化的想法,虽然它关于如何进行搜索有了很大赶紧。但是,现有阶段新的,不同寻常的是,它使用一个神经网络学习函数,有助于捕捉好的棋盘局面。通过结合这两个阶段,AlphaGo能发挥出如此高的水平。

这种折叠直观模式识别能力是一个大问题。这也是更广泛的趋势的一部分。在先前的文章,建立AlphaGo的同一组织 - 谷歌DeepMind - 建立了学会了打49经典的雅达利2600游戏机的神经网络,在许多情况下,人类专家都无法比拟。用计算机解决这个问题的保守的方法是Deep Blue方式:程序员将分析每场比赛,并计算出详细策略。

相比之下,DeepMind的神经网络简单地探索很许多场比赛。最初,它是可怕的,像一个新人一样乱下。但偶尔非常意外的做一些聪明的事.它学会识别的优异比赛的模式- 换句话说,导致更高的分数的模式-AlphaGo学到什么样是更好的棋盘局面.当发生这种情况,网络将加强这种行为,逐步提高其发挥的能力。

神经网络直觉和模式识别的能力用于其他情况下。 2015年,Leon Gatys, Alexander Ecker and Matthias Bethge发表一篇科学论文.描述学习艺术风格的神经网络,然后将这些风格应用到其它图像。想法是非常简单的:通过网络暴露非常大量的图像,获取识别具有类似的风格的图像的能力。然后,它可以对新图像应用该风格信息。例如,下面说明,将右侧文森特·梵高(中心)风格的图像转移到艾菲尔铁塔(左)的照片会发生什么。



这不是伟大的艺术,但它仍然是采用神经网络来捕捉直觉和其他方面应用的显著例子。

在过去的几年中,神经网络已被用于捕捉直觉和跨多个领域识别模式。这些网络项目已经用于自然视觉,包括识别艺术风格和发展良好的视频游戏战略任务。但也有网络用于非常不同的领域,包括音频和自然语言模拟的直觉。

由于这种通用性,我看不到AlphaGo是革命性的突破,而是作为一个极其重要的前沿发展:构建一个可以捕捉直觉系统和学会识别模式的能力。计算机科学家为了做到这一点已经尝试了几十年,但是没有太大的进步。但现在,神经网络的成功,大大扩大我们可以用电脑解决问题的范围。

人们很容易在这一点上疯狂地欢呼,并声明了一般人工智能几年后必须做到的。毕竟,假设你转换思想方式为计算机擅长的逻辑思维方式和“直觉”。如果AlphaGo和类似的系统,证明电脑现在可以模拟直觉.颠覆了认知:电脑现在可以执行逻辑和直觉。当然,一般的人工智能还需要等待!

但是,这里有一个夸张谬论:我们已经把许多不同的心理活动混为一谈为直觉.只是因为神经网络可以做一些良好捕捉特定类型的直觉,这并不意味着他们可以做的好与其它类型的。也许神经网络不擅长一些我们认为直觉的任务.

其实不然,我们现有的神经网络的理解是非常少。例如,2014年论文中描述某些“敌对的例子”可以用来愚弄神经网络的。笔者开始工作,神经网络非常擅长识别图片。这似乎是利用神经网络来捕捉模式识别能力的经典胜利。但是,可以通过在微小的方式改变图像愚弄网络。例如,用下面的图片中,网络正确分类左侧的图像,但是,当研究人员在图像中心添加微小的扰动,网络错误分类右侧图像。



另外一个现有系统的限制是,需要大量人类比赛来学习。例如,AlphaGo学习 150,000人比赛的经验。这是一个很大的比赛!相比之下,人类可以从少得多的游戏中学到很多东西。同样,识别和处理图像网络通常训练数百万示例图像,每个注释有关图像类型的信息。因此一个重要的挑战是使系统更好在较少的数据集进行学习,数据集包含更少的人为提供的和较少的辅助信息。

虽这么说,像AlphaGo这样系统是真正令人兴奋的。我们已经学会了用电脑系统再现某些形式的人类直觉的。现在,我们有这么多未来的挑战:扩大我们可以表现的直觉类型范围,使系统稳定,明白为什么,如何工作的,并学会以更好的方式结合电脑系统的现有优势。可能我们很快就学会了捕获一些数学证明,写故事或者不错解释的直觉判断?这是人工智能非常有前途的时代。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: