通用智能框架下的纽康姆难题

2019-09-27 08:56李熙

逻辑学研究 2019年4期

李熙

对于一个理性的主体来说，如果已知每个行为可能带来的后果，他会选择能够带来最大期望效用的行为。但如何精确地刻画并计算期望效用却是一个难题，尤其在涉及不确定情境下的决策时，对于如何用概率刻画可能后果的不确定性，并不是一件平凡的事。证据决策论与因果决策论是两种比较主流的决策理论，在分析纽康姆难题时，通常认为，证据决策论采用期望效用最大化进行决策，因果决策论采用“占优原则”进行决策，事实上，通过合适的概率计算，“占优原则”可以看作特殊的期望效用最大化，也就是说，两种决策论都通过期望效用最大化进行决策，但二者对于“期望”的计算方式不一样。比如在纽康姆难题中，证据决策论（[4]）与因果决策论（[5]）导出了两种完全不同的行为方式。

纽康姆难题最初由物理学家纽康姆提出、由哲学家诺齐克（R.Nozick）发表（[8]），它指如下这种谜题：

一个女巫向你展示了两个箱子a和x，其中a透明x不透明。透明箱子a中有很少的钱（L元），不透明箱子x中可能有很多钱（B元，B≫L），也可能什么都没有，你可以两个箱子都拿走也可以只拿不透明的箱子x。

女巫声称她可以提前预测你的行为，如果她预测到你会两个箱子都拿，她就让x空着，如果她预测到你只拿x，她就会放很多钱（B元）在里面。你们已经玩了好多回合了，女巫每次都猜对。下一次你该怎么选？1在原始的纽康姆难题（[8]）设定中，你看到女巫跟很多人玩，她几乎从来没输过。现在轮到你了，你该如何选择？本文对此做了微小的改动。之所以称其为纽康姆“难题”，是因为，根据主流的决策理论，比如证据决策理论，你最好只拿一个箱子；而根据因果决策理论，两个箱子都拿是一种“占优”策略。这在一定程度上非常反直观，所以虽然不构成一个悖论，却是一个难题。虽然本文对游戏设定略有修改，但这种反直观的情形依然存在。关于纽康姆难题更细致的哲学分析可以参看张建军（[15]）。

这个难题涉及到因果决定论与自由意志这一宏大哲学主题，所以倍受哲学家关注。除了因果决策论和证据决策论，为了解决这个难题，甚至产生了几个专门的决策理论。比如连贯决策论（[1]），无时间决策论（[14]），无更新决策论（[10]），量子决策论（[3]）等等。从结果来看，这些决策理论要么支持选择一个箱子，要么支持选择两个箱子。但还有另外一种消解难题的方式，那就是彻底否定这个游戏本身的合理性，认为这不是一个严格定义的博弈框架，不同的解读可以导出不同的博弈，比如[13]。

一般认为，证据决策论采用经典的条件概率，因果决策论采用反事实条件概率，其他形形色色的决策理论也基本是在设计各种“条件概率”。采用“消解”方案的人一般认为，经典的条件概率理论已足够，对游戏的不同解读方式对应不同的条件概率计算方式。本文也认为，发展一套专门的反事实条件概率或其他形式的条件概率的理论是不必要的，本文将从胡特尔（M.Hutter）的通用智能模型AIXI2关于AIXI的详细知识请参考[2]和[6]，其中涉及到的关于柯尔莫哥洛夫复杂性的知识请参考[7]，博弈论的知识请参考[9]。入手，认为在纽康姆难题中，关键在于如何用概率论刻画未知的“因果性”，从算法概率的角度看，关键在于，环境类/假设空间如何设定。

1 通用智能模型AIXI简介

记号.字母表X上的有穷序列记为X∗，无穷序列记为X∞，记X#:=X∗∪X∞，空序列记为ϵ。有穷序列x∈X∗的长度记为|x|，Xt:={x∈X∗:|x|=t},X≤t:=长度为n的序列x1x2...xn简记为x1:n，类似的，xt:n:=xtxt+1...xn−1xn，x

字母表X上的全序<可以诱导出有穷字符串X∗上的准字典序，

艾佛森括号

记∆(X)为X上的概率分布的集合。

在强化学习框架中，主体与环境不断交互，在第k个回合，主体向环境采取动作ak∈A，环境反馈给主体一个观察xk∈X，主体感知到xk的同时体验到效用u(ax1:k)，然后进入第k+1个回合，如此循环往复。形成的交互历史是(A×X)∗的一个元素。一个策略是一个函数π:(A×X)∗→∆(A)，它映射一个历史ax

一般默认用µ作为真实环境，如果真实环境µ已知，那么一个理性的主体会采取某个能使其获得最大的期望效用的“最优”策略

其中策略µ在环境µ中的期望效用为，

其中u:(A×X)∗→[0,1]是效用函数，γ是贴现函数，满足为贴现归一化因子。

假设M:={ν1,ν2...}是下半可计算的环境集。其中对每个环境ν∈M，主体都有一个相信其为真实环境的先验信念w(ν)，即w∈∆(M)，那么对所有可能环境的贝叶斯混合就是

所以，可以不区分确定性环境还是不确定性环境，而追求最大化。AIXI可以看作在各种可能的环境中以算法概率追求期望效用最大化的主体。

2 AIXI与纽康姆难题

纽康姆难题的原始版本中，主体对于女巫胜率的估计是题目直接给定或基于频率的。虽然纽康姆难题涉及因果性的话题，但对于概率本身的理论基础却不做讨论。事实上，纽康姆难题的关键是因果性，或主体做决策时眼中的主观因果性，对这个因果性的刻画恰恰应该被囊括在主体对于女巫胜率的主观信念之中，体现为某种主观概率。而在AIXI的框架中，AIXI是以所罗门诺夫先验概率作为评估各种可能性的初始信念，用贝叶斯混合或与其等价的算法概率为基础进行决策，因果性体现为可计算函数或可计算概率分布。下面对比证据决策论和因果决策论分析AIXI在纽康姆难题上的表现。

根据证据决策论，行为a带来的期望效用为

而根据因果决策论，行为a带来的期望效用为

二者的差别仅在于，证据决策论采用条件概率P[x|a]，而因果决策论采用反事实条件概率P[a>x]。在纽康姆难题中，条件概率与反事实条件概率并不相等。但不管条件概率还是反事实条件概率，背后起作用的都是因果性。

如果你相信女巫的说辞，那么你就会相信女巫是通过某种你不知道的策略进行预测然后据此决定放不放钱

根据AIXI的框架，你的博弈环境可以看作

你在博弈环境P中的期望效用为

在纽康姆博弈中，主体把每一局都当做最后一局来玩，不考虑未来的情况，所以虽然不考虑未来可能继续的博弈，但计算概率时，整个的过去历史在起作用，主体所能依赖的也只有过去历史。

因为无法判断a（选择箱子）和x（放钱）的先后顺序，所以根据时间顺序谁先谁后有两种分解方式，一种我们称它为“证据/因果”的分解方式，另一种称它为“自由意志”的分解方式。3根据我们的分解方式，一种情况下可以讨论女巫的行为多大程度上影响主体选择箱子的动作，这跟主体的自由意志相关，所以我们称这种分解方式为“自由意志”分解。另一种情况下可以讨论选择箱子的动作是否可能影响女巫的行为，而这种情况下又可以分别讨论证据决策者和因果决策者的不同选择，所以我们称这种分解方式为“证据/因果”分解。

按“自由意志”的分解方式，

自认为拥有自由意志的人会认为自己的行为完全独立于女巫的行为P[at|h

也就是说，不管女巫放没放钱，她的行为的结果都是已经确定无法更改的了，所以自己两个箱子都拿可以多赚L，是一种“占优”策略。

而相信自己不完全拥有自由意志、自己的行为部分受女巫的控制的人会认为这时，选择一个箱子还是两个箱子就取决于女巫的预测行为和自己拥有多少自由意志。比如，假如你认为自己没有任何自由意志，这意味着你的行为将完全被女巫决定那么，

替换P进行估测，其中q⇝h指程序q输出历史h。虽然放钱xt发生在选择箱子at之前，但AIXI在做出选择之前完全看不到箱子里是否放了钱xt，所以他只会根据他已有的经验h

按照“证据/因果”的分解方式，可区分证据决策与因果决策两种决策方式，

对于因果决策者来说，他相信自己的选择行为发生在女巫的预测行为之后，所以对女巫的预测没有影响，所以，

所以，

所以，虽然对放钱x和选择箱子a的“时序”的理解与自由意志的情形完全相反，但结果跟完全相信自由意志的情况一样，都认为拿两个箱子是“占优”策略，可以多赚L，必须两个箱子都拿，

而对于证据决策者来说，他不确信自己的行为是否影响女巫的预测，所以会认为，

所以，是否只拿一个箱子取决于二者相差多少，

因此，因果决策与证据决策的区别就在于对条件概率P[x|ha]的赋予方式不同；而对于AIXI来说，他会用算法概率M来逼近P(xt|h

3 小结与讨论

纽康姆难题是一个有哲学韵味的决策难题。面对纽康姆难题，主流的决策理论出现了分歧，采用期望效用最大化原则和占优原则分别会导向两种不同的选择。证据决策论者会拿一个箱子，因果决策论者会拿两个箱子。拿一个箱子的一般是宿命决定论者，拿两个箱子的一般是自由意志论者。一般来说，证据决策论采用经典的条件概率，因果决策论采用反事实条件概率。本文认为，解决纽康姆难题的关键在于，如何用概率方法刻画其中隐藏的因果性。如果用经典概率论可以刻画出其中的因果性，那么发展一套专门的反事实条件概率或其他形式的条件概率的理论是不必要的。本文通过对联合概率进行的“证据/因果”和“自由意志”两种不同的分解方式，说明不同的分解方式组合，会产生不同的期望效用。占优原则可以看作一种极端的期望效用最大化原则。所以，决策理论的基础——追求效用最大化并不与占优原则冲突。问题是——如何计算期望效用。本文主要从胡特尔的通用智能模型AIXI出发，从AIXI与女巫博弈的视角分析纽康姆悖论。AIXI采用算法概率计算期望效用，因为算法概率可以用来处理序列预测问题，而序列预测在一定程度上是对因果性的反映。而从算法概率的角度看，计算概率的关键在于，环境类/假设空间如何设定。借助通用智能模型AIXI，我们可以清楚地看出，基于什么样的环境类/假设空间，主体会采取什么样的选择。当环境类/假设空间足够大到包含类似于“自己的行为可能会影响女巫的决策”的可能假设时，主体都会倾向于选择一个箱子。

另外，如果AIXI的源代码和内存可以被修改，而且它自己也知道可以被修改（即，假设空间中包含自己的源代码和内存可以被修改的环境），那么，这就类似于主体不具有完全的自由意志的情形，也会倾向于只选择一个箱子。

如果AIXI意识到自己是完全内嵌于真实环境之中的，自己对真实环境的理解只是一种虚拟建模，主体完全是环境的一部分，环境可以修改主体的任何部分，环境执行主体的代码，主体所能做的顶多是在模拟环境的时候能够同时模拟主体在模拟环境中的表现。这种完全内嵌于环境的主体跟内存和源代码可以被修改的主体类似，都会考虑到自己不完全具有自由意志，都可能倾向于选择一个箱子。

虽然AIXI的“算法概率”对于估测“女巫”的预测行为有着重要作用，但是，在AIXI的框架中，尽管信息是不完全的，但时序关系是严格确定的，所以“主体”与“环境”的博弈可以看作“可观察行为的贝叶斯扩展博弈”。但在纽康姆难题中，对于“女巫”的预测行为“主体”无法观察到，所以无法确定自己的“选择”行为是否会影响“女巫”的“预测”、或“女巫”的“预测”是否会影响自己的“选择”。从AIXI的角度看，这就要慎重对待“女巫”给出的先验信息。因果决策者相当于把“女巫”的说辞理解为“自己的行为与女巫的行为完全独立”，所以，凡是模型类中自己的行为与女巫的行为不独立的所有假设都提前剔除了。而证据决策者只重视博弈的交互过程本身，不会把“女巫”的说辞作为先验信息从而据此提前对假设空间做那么大的删减。因此，二者的差别源于对“游戏设定”本身的理解不同。如何“合理地”对待游戏设定本身的不确定性已经超出了算法概率所能处理的不确定性的范畴，因为算法概率仅仅以“简单性”为先验，而不会考虑“游戏设定”给出的先验信息。

另外，一个有意思的问题是，假如跟你博弈的不是女巫而是AIXI，而且你知道跟你博弈的是AIXI，并且你知道自己是某个可计算的策略，那么，你会选一个箱子还是两个箱子？因为AIXI能够逼近任何可计算的策略，而且逼近的误差大小与可计算策略的柯尔莫哥洛夫复杂度相当，根据胡特尔（[2]），

这意味着，AIXI可以近似正确地预测你的选择。所以，这种情况下最好永远只拿一个箱子。