基于Expectimax 搜索与Double DQN 的非完备信息博弈算法

2021-03-18 08:04雷捷维王嘉旸闫天伟

计算机工程 2021年3期

雷捷维，王嘉旸，任航，闫天伟，黄伟

（1.南昌大学信息工程学院，南昌 330031；2.江西农业大学软件学院，南昌 330000）

0 概述

博弈论是研究具有斗争或竞争性质现象的数学理论和方法，是经典的研究领域之一。博弈问题存在于人们生活各个方面。例如，商品定价可看作商人和顾客之间的博弈，国家之间的经济与军事竞争也可视为博弈问题。现实中博弈问题比较复杂，人们通常将其经过抽象处理转化为便于研究的游戏模型再加以解决。博弈主要分为完备信息博弈和非完备信息博弈。在完备信息博弈中，玩家可看到全部游戏状态信息，不存在隐藏信息。例如，围棋、国际象棋和五子棋等均为完备信息博弈。在非完备信息博弈中，玩家仅可看到自身游戏状态信息和公共信息，而无法获取其他游戏信息。例如，麻将、桥牌和德州扑克等均为非完备信息博弈。由于现实中许多博弈问题无法获取全部信息而被归类为非完备信息博弈，因此非完备信息博弈问题受到广泛关注。研究非完备信息博弈，可解决金融竞争［1］、交通疏导［2］、网络安全［3］和军事安全［4］等领域的问题。

近年来，关于完备信息博弈和非完备信息博弈的研究在多个应用领域取得突破性进展。在围棋应用方面，Google 公司DeepMind 团队开发出AlphaGo、AlphaGoZero 和AlphaZero 等系列围棋博弈程序，并结合蒙特卡洛树搜索与深度强化学习算法［5-7］进行实现。2016 年，AlphaGo 以4∶1 击败韩国专业围棋选手李世石引发社会关注。在德州扑克应用方面，2015 年BOWLING 等人［8］在《Science》杂志发表关于CFR+算法的论文，证明该算法已完全解决两人受限的德州扑克博弈问题。2017 年，阿尔伯塔大学开发出DeepStack系统，结合CFR 算法与多层深度神经网络（Deep Neural Network，DNN）［9］解决了德州扑克一对一无限注博弈问题。此外，人们还对《星际争霸II》等多人非合作游戏进行研究，取得众多研究成果［10-12］。

相关研究显示，麻将的复杂度要高于围棋和德州扑克［13］，然而目前关于麻将研究较少，大多数麻将程序仅基于人工经验进行设计，未结合最新的强化学习等方法。目前麻将程序设计主要采用Expectimax 搜索算法［14-15］。2008 年，林典余［16］根据Expectimax 搜索算法以赢牌最快为原则设计麻将程序LongCat。2015 年，荘立楷［17］提出转张概念对LongCat进行改进，利用所得麻将程序VeryLongCat进一步提升LongCat的赢牌效率，并赢得该年度台湾计算机博弈比赛和国际计算机博弈比赛的冠军。然而在麻将游戏中要想赢牌，除了提高赢牌效率之外，还需提高赢牌得分。目前LongCat 和VeryLongCat 的剪枝策略和估值函数均基于人工先验知识设计，由于人类经验中常存在不合理的决定或假设［18-19］，因此设计更合理的剪枝策略和估值函数成为亟待解决的问题。

为解决上述非完备信息博弈问题，本文以麻将为例进行研究。目前麻将程序主要采用Expectimax搜索算法，其计算时间随着搜索层数的增加呈指数级增长，且其剪枝策略与估值函数基于人工先验知识设计得到。本文提出一种结合Expectimax 搜索与Double DQN 算法的非完备信息博弈算法，利用Double DQN［20］算法给出的子节点预估得分，为Expectimax 搜索算法设计更合理的估值函数与剪枝策略，并将游戏实际得分作为奖励训练Double DQN网络模型以得到更高得分与胜率。

1 相关理论

1.1 Expectimax 搜索算法

Expectimax搜索树［14-15］是一种常见的搜索算法，广泛应用于非完备信息博弈游戏，其结构如图1所示。在此类游戏中，由于某些信息具有随机性和隐藏性，因此无法使用传统的minimax搜索树算法［21］来解决。针对该问题，Expectimax 搜索算法中设计了max 节点和chance 节点。其中，max 节点和chance 节点的效用值分别是其全部子节点效用值的最大值与加权平均值（即当前节点到达每个子节点的概率）。例如，对于图1中值为39 的max 节点，39 为其所有子节点（chance 节点）的最大值；对于值为14的chance节点，14为其所有子节点（max节点）的加权平均值，即：14=20×0.4+10×0.6。Expectimax 搜索算法与大多数游戏树搜索算法类似，也是通过启发式估值函数计算各节点估值。

图1 Expectimax 算法的搜索树结构Fig.1 Search tree structure of Expectimax algorithm

1.2 Double DQN 强化学习算法

强化学习源于智能体对人类学习方式的模仿，是智能体通过与环境交互不断增强其决策能力的过程。强化学习算法主要包括动态规划算法［22］、时序差分算法［23］、蒙特卡洛算法［24］和Q 学习算法［25］。这些算法均存在局限性：动态规划算法虽然数学理论完备，但是其使用条件非常严格；时序差分算法可在无法获取环境全部信息的情况下得到较好效果；蒙特卡洛算法需对当前未知环境进行采样分析，由于时间与空间具有复杂性，因此其很难应用于解决时序决策问题；Q 学习算法是通过计算每个动作的Q 值进行决策，但是其存在过估计问题。

随着对强化学习研究的不断深入，研究人员对Q 学习算法改进后提出深度Q 学习算法DQN［26-27］，该算法与Q 学习算法一样，也是通过计算每个动作的Q 值进行决策，仍存在过估计问题。为解决该问题，研究人员在DQN 基础上提出双重深度Q 学习算法Double DQN［20］。

DQN 算法具有原始网络和目标网络两个神经网络，虽然其结构相同，但是权重更新不同步。DQN算法的权重更新使用均方误差（Mean Squared Error，MSE）定义损失函数，其表达式如下：

其中，a为执行动作，Rt+1为奖励分数，St为当前游戏状态信息，St+1为下一个游戏状态信息，θ为网络权重，γ为折扣因子，Q(S，a)为状态S下执行动作a的估值。

由于Q 学习算法和DQN 算法中Max 操作使用相同值选择和衡量一个动作，可能选择估计值过高的动作导致过估计问题。为此，Double DQN 算法对动作的选择和衡量进行解耦，将式（2）改写为以下形式：

2 本文算法

2.1 基于Expectimax 搜索的麻将决策过程

由于麻将游戏过程中存在发牌随机性等不确定因素，因此其规则比较复杂。在麻将游戏中，玩家可通过捉牌、吃牌、碰牌和杠牌等方式获得一张牌，随后需再打出一张牌，后续重复上述步骤，直到游戏结束为止。如果将吃牌、碰牌和杠牌视为特殊的捉牌，则麻将中所有动作均可用序列<捉牌，打牌，捉牌，打牌…>来表示。其中，捉牌动作记录捉牌玩家的用户ID 以及捉哪张牌等信息，打牌动作记录打牌玩家的用户ID 以及打哪张牌等信息。

假设A、B、C 和D 代表4 名玩家，其中A 为当前玩家，B、C、D 为其他玩家。如果A 捉牌“9 万”后打牌“6 万”，B 碰牌“3 万”后打牌“7 筒”，A 碰牌“7 筒”后打牌“1 万”，那么上述动作序列可表示为。

实际上，如果在决策中考虑所有玩家的动作，则Expectimax 算法的搜索树很大，从而无法在有限时间内做出决策。为解决该问题，通常将整个游戏博弈过程进行抽象处理，仅考虑当前玩家的捉牌与打牌动作，并以此构建Expectimax 算法的搜索树。此外，为进一步简化搜索树，将吃牌、碰牌和杠牌也作为特殊的捉牌，则上述动作序列表示为。

通过上述方法，本文将麻将游戏过程简化为捉牌和打牌两个动作。结合Expectimax 搜索算法，将捉牌动作看作chance 节点，打牌动作看作max 节点。例如，假设当前玩家手中持有的牌（以下称为手牌）为1 万、2 万、4 万、9 万和9 万，那么基于Expectimax算法的麻将搜索树结构如图2 所示。