您的位置:首页 > 理论基础

AI研习丨专题:不完全信息计算机博弈的模型与应用

2020-04-29 18:45 1286 查看

  

  摘 要

  本文介绍了计算机博弈的不完全信息博弈的基本概念,对比分析了完全信息博弈和不完全信息博弈的模型差异,并详细探讨了不完全信息博弈模型在计算机博弈引擎决策、对战平台和棋谱标准等领域的应用。

  关 键 字

  不完全信息;计算机博弈;模型

  0 引言

  人工智能领域对计算机博弈的研究由来已久。完全信息博弈是计算机博弈研究者最早关注的一个方向,目前已经取得了巨大的成就。1997年IBM 计算机DeepBlue 战胜了国际象棋世界冠军卡斯帕罗夫,首次向世人展示了计算机人工智能在复杂的棋牌智力游戏上战胜了人类。2017 年Google 程序AlphaGo 战胜了围棋世界第一人柯洁,再一次在这个被称之为世界上最复杂的智力游戏上超越了人类。

  与完全信息博弈不同的是另一种博弈,游戏双方并不完全掌握决定胜负所需全部信息。典型的不完全信息博弈游戏项目有幻影围棋、军棋、桥牌、斗地主、德州扑克和麻将等。这些项目由于每个玩家掌握的信息都不完整,因此在较短的对局过程中,很难作出准确的判断或对即将形成的局面有准确的估值。

1 计算机博弈的信息完全性

  1.1 完全信息博弈

  完全信息博弈是指每个博弈游戏参与者对各方参与者所有信息都准确掌握。比如象棋游戏,每个玩家不仅知道自己的棋子大小和位置,也知道对手棋子大小和位置;再比如围棋游戏,每个玩家都知道双方的全部棋子位置。因此,这类游戏的人工智能研究更关注对规则的描述和计算,以及搜索的优化。

  1.2 不完全信息博弈

  另一类博弈是完全信息博弈技术不能解决的,被称为不完备信息博弈。博弈参与者只掌握己方信息,却不清楚对方的信息,造成博弈状态信息隐蔽、不可见。比如,在二人军棋游戏中,每个玩家只知道己方棋子的位置和大小,以及对方棋子的位置,但是不知道对方棋子的大小;还有一种幻影围棋,玩家只掌握自己的棋子位置,不知道对方的棋子位置。这些游戏都需要裁判完成信息的沟通、规则的检验和胜负的判定。与完全信息博弈相比,不完全信息博弈更复杂、更有现实意义。

  在传统完全信息博弈项目的计算机对战中,影响胜负的因素对双方都是信息完备的,研究者更多的重点放在战法策略研究和搜索速度优化方面。不完全信息博弈项目的计算机对战中,除了按照规则合法获取对手信息以外,如果通过其他非法途径获取更多信息则会严重导致游戏的不公平。例如,在很多即时策略类单机游戏中,游戏设计者为了弥补人工智能的短脚,不惜为机器一方提供更多信息,使玩家处于信息劣势,从而勉强维持游戏的平衡性。

  在两个或多个程序采用统一对战平台系统的情况下,为了提高博弈效率,通常将多方信息存储在统一平台上,这些信息对单独的参与者程序是不透明的。

  

  

  

3 不完全信息博弈模型的应用

  3.1 对战引擎的设计

  通过对幻影围棋博弈模型的分析,可以发现信息空间和收益函数之间存在较大的联系。在9 路围棋中,选手要吃掉对方孤立的棋子是比较困难的,因为位于棋盘中央附近的孤立的1 个棋子要被对方4 个棋子围住才能被吃掉。因此被吃一方只要在对方围住自己的第四个棋子落下之前及时连接逃跑就有很大机会存活。而在幻影围棋中,由于玩家掌握的信息不完备,玩家无法及时了解自己孤立的棋子是否已经处于危机,因此把自己的棋子连在一起的防御布局策略比松散进攻布局策略通常更有优势。

  同样的,在二打一(斗地主)中,由于不能事先知道其他参与者手中的牌和底牌的分布,因此玩家不能乐观地认为自己叫牌成功后,底牌一定会对自己有帮助。也不能确定其余34 张牌是如何分配在另外两位玩家手里的,是否会组成更强的牌。因此多数玩家会在手中的牌有很大的优势或成功率时才会叫牌,而不是高于平均水平就叫牌坐庄。很多资深玩家在初期信息不足的情况下,往往宁可不使用炸弹而失去高分,也要避免由于对手牌的分布刚好不利于自己而由得变失。

  在研究中发现,由于不完全信息博弈中信息的不对称性,往往要付出很大的代价来换取信息,在设计引擎时要仔细考虑所付出的代价是否与带来的收益相符;同时,在设计棋谱时,也要侧重与信息的描述,这样的棋谱实际应用价值更高,阅读者获取的收益也会更大。

  3.2 博弈规则、对战平台和交互协议的设计

  计算机博弈研究中比赛是检验研究成果的主要方式。为了提高比赛效率,往往需要使用独立的比赛对战平台系统,加载比赛选手引擎完成对局。但是由于不完全信息的特征,所设计的平台需要充分考虑对需要保护信息的特殊需要。因此,对战平台应该准确区分哪些信息是可以提供给哪些玩家的,哪些信息是需要加密保存的。在设计选手引擎与裁判平台交互的协议时,也要把握好交换信息的尺度,对各种棋位和棋子或牌花色点数进行高效的编码。

  博弈游戏是人们对智力的锻炼工具,博弈游戏的规则要满足以下的两个条件。

  (1)博弈规则对游戏双方尽量是公平的。

  (2)博弈结果应尽量避免平局。

  在设计军棋计算机博弈规则时,考虑到传统军棋规则并未对消极防御有任何惩罚约定,所以很多选手倾向于不进攻对方,使对局很容易陷入平局。

  

  

  2020年 第10卷 第2期 机器博弈专题

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  人工智能 alphago