真正的高手，都是贝叶斯主义者

2023-09-17 19:27老喻

商界评论 2023年8期

关键词：垃圾邮件骰子优惠

老喻

“你生命中最大的挑战是什么？”

在某个论坛上，“钢铁侠”埃隆·马斯克面对这个问题时，想了30秒后给出了一个非常精彩的回答：“确保你有一个可纠错的反馈闭环。”

“可纠错的反馈闭环”几乎是创业、投资、成长等问题的核心答案。但如果不能将其与贝叶斯公式的计算结合起来，那它就和所有解释性概念一样，只能作为一篇热销文章或图书的标题而已。

贝叶斯主义是一种关于概率和统计的哲学观点，它强调信念的主观性和更新。在该观点中，贝叶斯公式是核心工具，用于处理不确定性、更新信念，并指导决策。

本文将从“可纠错的反馈闭环”和“贝叶斯公式”出发，给出贝叶斯主义者的9个策略和行动框架。该9个要点，可协助读者了解贝叶斯主义的现实模型，并探索“真正的高手”的秘密。

策略一接受不确定性，用概率思维来预测和决策

大约在3年前，有一位年轻老师想在抖音和微信视频号上做自己的IP（知识产权），但又担心：万一自己辛苦一番，抖音和视频号又不火了呢？

“确保成功”似乎是很多人做决定的前提，但并没有什么事情是确定的。

残酷的是，越是追求“确保成功”的人，反而越脆弱，越容易掉入决策的陷阱。例如，市面上的种种骗术都是以“确保成功”为吸引点，甚至主流文化也因为实用主义的偏好，而形成了“要么成功，要么失败”的黑白分明价值观。

于是，面对不确定性，许多人容易产生两种极端的行为：“不见兔子不撒鹰”，追求不存在的“确保成功”；“人生就是赌一把”，见一个热点就All in（全部押进）一个。

对于贝叶斯主义者来说，世界是灰度的：

1. 沒有人能给这个复杂的世界算命；

2. 随着时间的变化，一切都在变化；

3. 即使存在不确定性，世界也很难精确预测，但仍然可以用概率来描述世界；

4. 从世俗成败的角度看，赢家只需要在局部获得相对优势，就能够领先于对手；

5. 基于概率的认知和判断，是一个不断逼近、不断进化的过程。

由此可见，贝叶斯思维的核心是：接受事物的不确定性，并利用概率来描述和理解它。

展开说就是，对于不确定性，贝叶斯思维鼓励我们基于概率来做决策，不怕犯错误，尝试新的事物，从失败中学习，调整策略；

对于概率，我们可以将其用于量化现实世界的不确定性，也可以用于评估我们自己的决策质量。

比如，桥水基金就使用了一种称为“贝叶斯加权”的决策过程。具体操作是：该公司对于每一个决策，都会将决策者的可靠性、专业知识等因素考虑进来，然后根据这些因素分配权重，最终做出决策。

贝叶斯主义认为，概率是一个假设的信念。例如：“我认为这只股票上涨的概率是30%”就是一种主观的信念，并且会根据更多的信息随时更新的信念。

所以，面对不确定性，你大概都会有一个评估。举个例子：一个公司在其网站上运行了2种广告（广告A和B），目标是找出哪种广告的点击率更高。

初始时，公司并不知道哪种广告的效果更好，因此假设2种广告的点击率都是50%。随后，公司开始在网站上随机展示这2种广告，并收到用户每次点击广告的反馈。根据反馈，公司就可以更新他们对广告点击率的估计，而具体的更新过程通过贝叶斯公式来完成。

当一个用户点击了广告A，那么公司就会提高对广告A点击率的估计，反之就降低对广告A点击率的估计。随着不断的实验和更新，公司最终会找出哪种广告的效果更好。

可以看出，“贝叶斯更新”是使用贝叶斯公式来更新我们对某个假设的信念。具体如下：

首先，我们会有假设的“先验信念”，这个信念通常表示为一个概率。

其次，我们会收集新的数据，这些数据可能会影响我们对假设的信念。在贝叶斯统计中，可使用贝叶斯公式将新的数据与先验信念结合起来，得到一个更新的信念，这个更新的信念被称为“后验信念”。

贝叶斯更新的关键思想是：我们的信念不是固定不变的，而是可以根据新的数据进行更新的。而贝叶斯公式提供了一个理论框架，指导我们如何根据新的数据更新我们的信念。

策略二快速行动和迭代，打造“知行一体”的反馈飞轮

贝叶斯思想强调快速迭代、快速行动，即只有通过实践，我们才能得到反馈。这与“知行合一”的哲学理论吻合。

不过，贝叶斯公式还给出了“知行”的动力学模型。

从数学的角度来看，贝叶斯公式是：

P（H|E）=[ P（E|H）*P（H）]/P（E）。

其中：P（H|E）是后验概率，即在观察到新的数据E后，假设H成立的概率；

P（E|H）是似然度，即在假设H成立的情况下，观察到数据E的概率；

P（H）是先验概率，即在没有观察到新的数据前，假设H成立的概率；

P（E）是证据或边缘概率，即无论假设是否成立，观察到数据E的总概率。

在这个公式中，决策者（或智能体）通过计算后验概率，将新的观察数据（E）和原有的信念（H）整合在一起，而后验概率可以用于指导智能体的后续行动。

下面我将举例，让贝叶斯公式的计算，来解答智能体是如何学习经验的。

题目：黑盒子里有2个骰子，一个是正常骰子，扔出数字6的概率是1/6；一个是作弊骰子，扔出数字6的概率是1/2。这时，你从中摸出一个骰子，扔了一次，得到一个6。请问：你再扔一次得到6的概率是多大？

在没有观察到新的数据前，这个骰子可能是正常骰子，也可能是作弊骰子，概率各为1/2，这是先验概率。

现在，根据信息“扔出数字6”，来计算这个骰子是正常骰子和作弊骰子的概率分别是多大：

是正常骰子的概率为：1/6÷（1/6+1/2）=1/4；

是作弊骰子的概率为：1/2÷（1/6+1/2）=3/4。

通过贝叶斯更新，更新这个骰子的信息：原来的先验概率是各1/2，但现在后验概率分别是1/4（正常骰子）和3/4（作弊骰子）。

那么，再扔一次，得到6的概率是多大呢？这里的关键是：将上面得到的后验概率变成新的一轮计算的先验概率。

再得到一个6的概率计算，相当于在更新之后的先验概率基础之上做预测，计算如下：1/4×1/6+3/4×1/2=5/12。

两次扔骰子都是独立事件，为什么第一次扔骰子得到6的概率和第二次的概率不一样？贝叶斯概率的解释是，以第一次扔骰子得到6的这一结果作为信息，更新了我们对第二次扔骰子得到6的概率的判断。

骰子没有记忆，为什么第一次的结果会“改变”第二次结果呢？答案是：没有改变结果，只是改变了“信念”。

即使扔了两次骰子，我们依然不知道这个骰子是正常的还是作弊的，但我们可以带着这种不确定性向前走，为此需要“猜”这个骰子是正常的还是作弊的概率。这个概率，就是信念。

根据信息的变化，快速更新，似乎体现了某种达尔文式的进化。

从这个角度看，贝叶斯推理起初或许弱小含混，但却有主动适应性，即从经验中不断学习，并快速演化。同时，这个过程还可以不断重复，从而产生决策和智能的杠杆效应。

总而言之，贝叶斯公式可以将新的数据（或观察）与我们现有的信念结合起来，从而得到更新的信念。同时，贝叶斯公式通过提供一种系统化的方法来更新信念，使智能体可以从每一次的观察和交互中学习，并不断地改进模型和策略，从而变得更加“聪明”。

策略三用贝叶斯公式，实现“有系统”的复利效应

贝叶斯主义者需要有自己的模型，并基于一个系统，通过不断重复的连续性策略，产生复利效应。

如何理解贝叶斯主义的复利，我们可以用一个可计算的例子来示范。

密歇根大学曾经设计过一个有趣的概率实验（以下案例来自《思维的发现》，本文略作调整）：两口袋筹码放在被试面前，每只口袋里都有红白2种颜色的筹码。其中一只口袋里，75%的筹码是白色，25%的筹码是红色；另一只口袋里，75%是红色，25%是白色。被试随机挑选一只口袋，然后把筹码一个接一个往外拿（以上实验，每次都要把拿出的球放回原处），其间不得向袋子里面看。每拿出一个筹码，他都需向研究人员汇报他的猜测：他手中的袋子究竟是白色筹码居多，还是红色筹码居多？

假如你第1次拿出的是红色的筹码，那么根据贝叶斯公式计算，你肯定会猜手中的袋子来自红色筹码多的袋子的可能性更大。

那问题来了：假如连续3次都拿出了红色的筹码，你认为来自红色筹码居多的袋子的概率是另一种的多少倍？

在实验中，被试者认为来自红色筹码居多袋子的概率是白色筹码居多的概率的3倍。

但根据贝叶斯公式计算，该概率是27倍。

该案例，直观地呈现出了贝叶斯计算的指数式增长的复利效应。

不得不提的是，除了“系统、内核、大规模重复、复利”是贝叶斯公式的关键词外，还有“自动化”。

而自动化主要是计算机和人工智能的出现对贝叶斯公式的应用产生了重大影响，包括：计算能力的提升，数据的增长，算法的进步，实现自动化等。

策略四重视基础概率，基于整体资产滚雪球

基础概率是老生常谈的话题。而基础概率，大约包含“空间、时间、可能性”这3种。

其中，空间的基础概率可以举例理解：中国首富是钟睒睒（农夫山泉公司董事长）的一个重要的原因是：2022年中国饮料市场规模约为12 478亿元，其中包装饮用水占比约为62.7%。基数够大，水深鱼大。

时间的基础概率，举一个反面例子：投资者经常基于过去的走势来预测股票的未来表现，但忽视了基础概率。

要知道，过去的走势并不能保证未来的表现，每一次的市场表现都是独立的。人们经常因为局部时间的涨跌概率，而忽视了更长时间的基础概率（涨或跌）。

有句话说：近处很难预测，远处反而容易预测。这里所说的远期预测，更像是相对稳定的基础概率。

而可能性的基础概率常常被人们忽视。例如，赌场的游戏中，每种游戏的胜率都对赌场有利，这是基础概率。但是许多赌博者可能因为赢了几次而过度自信，认为自己有战胜赌场的策略或运气—明显忽视了赌博的基础概率。

一般来说，当我们获得新的证据时，我们会利用贝叶斯定理更新我们的先验概率，从而得到后验概率。基础概率可以被看作是一种特殊的先验概率，即没有任何特定证据的先验概率。

所以，我們在做决策时，要眼观全局，基于整体资产来选择，并以整体资产的增长率来评判决策与行动的质量。

策略五对新信息保持“敏感”，又有独立判断的“钝感”

贝叶斯公式告诉我们，要对新信息保持“敏感”，又要考虑基础概率和先验概率，保持独立判断的“钝感”。如何理解？

其中，对新信息保持“敏感”是，当新信息（证据）到来时，我们应该更新我们的信念（概率）。这种对新信息的“敏感”表现在我们如何根据新的证据来修正看法。

例如，你是一个产品经理，当你得到用户反馈说你的产品有某些问题时，你应该更新你对产品质量的评估。

保持独立判断的“钝感”则是，我们不能盲目地只考虑新信息，还需考虑基础概率和先验概率。这意味着我们需要结合初始信念和新的证据来更新看法。

例如，我们的产品在测试阶段已经表现得非常好（先验概率），那即使我们收到了一些负面的用户反馈，也不能立即得出产品质量差的结论。我们需要权衡我们的初步信念（产品质量好）和新的证据（负面反馈）。

这样的平衡使我们既对新信息保持敏感，又能保持对我们初步信念的忠实。我们要有独立的判断能力，避免被一些偶然事件或者噪音所误导。

在实践中，我们不能仅仅根据一次或几次的失败就对自己的能力或者一个项目的可能性产生怀疑。我们需要考虑我们的长期经验（先验概率），同时也要对新的反馈保持开放。

可以说，想成为高手，需要学会使用数据来支持他们的决策系统，而不仅仅依赖于直觉。

策略六降低自己被证伪的概率

贝叶斯推理和波普尔的证伪主义看似截然不同，但在某种程度上是相似的。

贝叶斯推理：在这个框架中，我们不断地在模型或理论中添加新的信息，并基于这些信息调整预测。最关键的是，我们会根据新的证据进行调整，但不会彻底抛弃旧的信念。

波普尔的证伪主义：在这个框架中，我们设立假设，并试图找到证据来反驳这个假设。如果找到了这样的证据，我们就会彻底放弃这个假设，反之则继续保持这个假设，但仍然要持续寻找可能反驳这个假设的证据。

这两种思想的一个共同点是，都强调了试错过程和持续学习的重要性：在贝叶斯推理中，通过观察和学习来改进我们的预测；在波普尔的证伪主义中，通过证伪假设来改进我们的理论。

然而，这两种思想的一个关键区别是，贝叶斯推理允许我们结合新旧信息，而证伪主义则更倾向于抛弃被证伪的理论。

换句话说，贝叶斯推理倾向于逐步改进我们的模型，而证伪主义倾向于寻找突破性的改变。

这两种方法在实际应用中往往会结合使用。以简化版的垃圾邮件过滤贝叶斯模型为例：我们想知道一封包含“赚钱”和“优惠”这两个词的邮件是否是垃圾邮件。

训练数据如下：

1. 有100封邮件是垃圾邮件，其中“赚钱”这个词出现在90封邮件中，“优惠”这个词出现在60封邮件中。

2. 有100封邮件是正常邮件，其中“赚钱”这个词出现在10封邮件中，“优惠”这个词出现在30封邮件中。

首先计算单词“赚钱”和“优惠”在垃圾邮件和正常邮件中的概率：

P（赚钱|垃圾邮件）=90/100=0.9；

P（优惠|垃圾邮件）=60/100=0.6；

P（赚钱|正常邮件）=10/100=0.1；

P（优惠|正常邮件）=30/100=0.3。

另外，假设垃圾邮件和正常邮件的先验概率是相同的，都是0.5，因此：

P（垃圾邮件）=P（正常邮件）=0.5。

现在，使用贝叶斯公式来计算一封包含“赚钱”和“优惠”两个词的邮件是垃圾邮件的概率：

P（垃圾邮件|赚钱，优惠）=P（赚钱，优惠|垃圾邮件）×P（垃圾邮件）/P（赚钱，优惠）。

假设“赚钱”和“优惠”是独立的，因此：

P（赚钱，优惠|垃圾邮件）=P（赚钱|垃圾邮件）×P（优惠|垃圾邮件）=0.9×0.6=0.54；

P（赚钱，优惠|正常邮件）=P（赚钱|正常邮件）×P（优惠|正常邮件）=0.1×0.3=0.03；

P（赚钱，优惠）=P（赚钱，优惠|垃圾邮件）×P（垃圾邮件）+P（赚钱，优惠|正常邮件）×P（正常邮件）=0.54×0.5+0.03×0.5=0.285。

代入贝叶斯公式，可得到：

P（垃圾邮件|赚钱，优惠）=P（赚钱，优惠|垃圾邮件）×P（垃圾邮件）/P（赚钱，优惠）=0.54×0.5/0.285=0.95。

这个结果表明，一封包含“赚钱”和“优惠”两个词的邮件有95%的概率是垃圾邮件。“赚钱”和“优惠”证伪了“该邮件是一封正常邮件”。

但根据上面的计算得出，还是有5%的概率不是垃圾邮件。如果非常重要的邮件因此被归为垃圾邮件，那后果是很严重的。

这正是贝叶斯垃圾邮件过滤器面临的一个常见问题：误报。

解决这个问题的一种方法是调整过滤器的阈值。比如，我们可以设定一个规则，即只有当一封邮件被判定为垃圾邮件的概率超过99%时，才将其归为垃圾邮件。

这样可以显著降低误报的概率，但代价是可能会有更多的垃圾邮件漏过过滤器。

另一种方法是使用更复杂的模型，例如包含更多特征的模型，或者使用深度学习等方法。这些模型可能会提供更好的性能，但同时也会更复杂，需要更多的计算资源。

总之，通过贝叶斯公式，我们可以看到证伪或否定证據的重要性。批判性思维和证伪思维是科学研究的核心，也是保持思维开放、防止陷入偏见和过度确定的重要工具。

对于高手而言，证实和证伪同样重要。只有如此，才能形成“可纠错的反馈闭环”。

策略七不断学习，并在适应中快速进化

贝叶斯公式的原理和哲学与适应性及进化理性有深度的关联。我们可以从以下几个方面来进行理解：

1. 学习和适应性：贝叶斯公式是基于新的数据更新我们的观念和信念，这种动态调整和学习的过程与生物的适应性有很强的相似性。

2. 不确定性和进化理性：贝叶斯方法是一种处理不确定性的方法，它接受并积极地使用不确定性，而不是尝试消除它，同时能够提供最优或至少是足够好的决策。这种对不确定性的认识与进化理性的概念相吻合。

3. 动态更新和适应环境：生物在自然界中要生存，需要根据环境变化作出适应性变化。而贝叶斯公式则提供了一种思维模式，让我们能够根据新的信息动态更新我们的观点和决策，以最好的方式适应我们所在的环境。

4. 淘汰错误的假设：贝叶斯公式中，一种假设（或模型）的概率会根据观察到的数据进行更新。如果一個假设持续得到的数据支持较少，它的概率就会变小，这就像自然选择过程中适应度较低的物种被淘汰一样。

综上所述，贝叶斯公式的原理和哲学与适应性及进化理性之间存在紧密的联系，它们都强调了对新信息的接收、动态更新和在不确定性中做出最优决策的重要性。

策略八探索未知&利用已知，在攻和守之间进行权衡

在贝叶斯决策过程中，我们需要在探索未知和利用已知之间进行权衡。

比如多臂赌博机（赌场里的老虎机）问题就是一个典型的决策理论问题：你面前有n台赌博机，每台赌博机的赢钱概率都不同，但你不知道每台机器的具体赢钱概率。而你的目标是，通过一定次数的尝试，找出赢钱概率最高的那台机器，然后将剩下的押注全部放在这台机器上，以此实现最大化收益。

这个问题中的挑战在于找到一个合适的策略，这个策略要在探索（尝试新的机器以了解它们的赢钱概率）和利用（利用已知的信息，押注赢钱概率高的机器）之间找到平衡。

贝叶斯思维在这个问题中特别有用。因为每次你尝试一个机器，你就获取了一些新的信息，这个信息可以用来更新你对这台机器赢钱概率的信念，并使用这个信念来指导决策，找到一个较好的探索和利用的平衡，从而最大化你的收益。

假设你面前有2台赌博机，你先试了第一台几次，发现赢钱的概率不高，然后就转向第二台机器。在第二台机器的几次试玩，你都赢了，于是你就对这台机器有了信心，决定将更多的押注放在这台机器上。

但同时，你还会保留一些押注尝试第一台机器，以防第二台的赢钱概率有所改变。

这就是在多臂赌博机问题中利用贝叶斯思维的例子，也是生活中“探索与开发（exploitation）”权衡的一个模型。这在我们的决策制定、选择策略以及资源分配上都有重要的启示。

概括而言，我们需要一个攻守兼备的灵活人生。我们应有一些自由探索，一些随机漫步，以及一些闲暇时光。

策略九理解贝叶斯的局限，小心应对“黑天鹅”事件

当“贝叶斯”遇见“黑天鹅”，会发生什么？

贝叶斯推理是根据新的证据更新信念，而不是推翻旧有的信念。但旧有的信念是“全世界的天鹅都是白的”，而这时候观察到一只天鹅是黑色的，那么我们难道不应该彻底推翻这一信念吗？

你也许可以说，贝叶斯推理将你原先的信念调整为“天鹅可以是白的，也可以是黑的”或“大多数天鹅是白色的，但也有一些天鹅是黑色的”。

从这个角度来看，你是在用新的证据来调整，而不是完全放弃你的旧信念。然而，特定的信念可以在遇到反例时被彻底推翻。

如果我们的决策、我们的下注，建立在类似于“所有的天鹅都是白的”这类信念之上，那么新信息可能就不只是“更新原有信念”，而是彻底摧毁原有信念了。

这就是为什么在科学实践中，证伪主义的观点是非常重要的。

由此，我们可以看到，贝叶斯理论虽然强大且实用，但也有其局限性和缺点：

1. 依赖于先验知识：贝叶斯理论的一个主要缺点是它依赖于先验知识。在许多情况下，这些先验信息可能不准确或者难以获得。

例如，一位投资者可能基于错误的信息，或者对市场的错误理解，形成了一个错误的先验信念，这可能导致他们的投资决策出错。

2. 过于理想化的假设：贝叶斯方法往往假设各个特征是独立的，这在现实中往往不成立。

例如，当我们在评估一家公司的股票时，我们可能会考虑这家公司的许多特征，如财务健康状况、市场定位、管理团队等。这些特征之间可能存在着复杂的相互影响关系，而不能简单地将其视为独立的。

3. 计算复杂性高：对于复杂的问题，贝叶斯更新可能涉及到大量的计算。如果参数很多或者模型很复杂，那么计算后验概率可能会非常复杂和计算密集。

4. 结果可能过于保守：贝叶斯更新融合了先验信念和新的观察，如果先验信念过于强烈，那么新的观察可能不足以显著改变结果，这可能导致决策过于保守。

例如，一个坚定的理想主义者，即使面对新的证据，也可能仍然坚持他的信念，这可能导致他错过新的机会或者持续走在错误的道路上。

可见，贝叶斯公式和任何概率模型一样，有其局限性，特别是面对预测罕见的“黑天鹅”事件时。但也有一些可以尝试的方法，以缓解或避免这些局限性：

1. 合理选择和更新先验概率：先验概率是贝叶斯推理的关键组成部分，一定要尽可能准确和有信息量。如果先验概率选择不当，可能会导致结果偏离实际。此外，我们必须时刻准备根据新的数据来更新我们的先验概率。

2. 采用蒙特卡洛模拟法：蒙特卡洛模拟能够帮助我们更好地理解概率分布的全貌，包括那些罕见的事件。通过模拟大量可能的情况，我们可以获得更全面的视角，以期望在遇到“黑天鹅”时，能作出更有准备的响应。

3. 压力测试和情景分析：尽管贝叶斯推理能够给出一个可能的结果，但我们还需要进行压力测试和情景分析，以确定系统或决策是否能够抵御极端事件的影响。

4. 注意模型的假设和局限性：任何模型都是基于某些假设的，贝叶斯模型也不例外。我们必须清楚这些假设，并了解在什么情况下，这些假设可能不再适用。当我们注意到模型可能不再适用时，我们就需要寻找其他的方法。

5. 维持谦逊和开放的心态：面对不确定性，尤其是在面对可能会改变我们的知识或观念的新信息时，保持谦逊和开放的态度是至关重要的。我们的知识和理解都是有限的，永远有学习和改进的空间。

这些方法都需要我们理解和接受，无论我们使用什么模型或方法，都不能完全消除不确定性。我们的目标应该是：

管理和减轻不确定性，而不是试图消除它。这个世界上不存在一个万能的公式，能提供出所谓100%的确定性。

总结

可纠错的反馈闭环，其底层是一种贝叶斯更新的哲学，对个人而言是非常重要的关键思想。

反馈闭环基本上是一种连续的过程，包括步骤：执行一个动作、观察结果、理解反馈、更新策略、再执行新的动作。

在这个过程中，“理解反馈”和“更新策略”的步骤，就是在进行贝叶斯更新。

由于时间的推进，在我们的人生当中，每个反馈闭环并不是原地打转的，而是犹如链条般串起来。

所谓有算法的人生，就是以“可纠错的反馈闭环”为珍珠，串起不断更新、有复利效应的一生。

真正的高手，都是贝叶斯主义者

策略一 接受不确定性，用概率思维来预测和决策

策略二 快速行动和迭代，打造“知行一体”的反馈飞轮

策略三 用贝叶斯公式，实现“有系统”的复利效应

策略四 重视基础概率，基于整体资产滚雪球

策略五 对新信息保持“敏感”，又有独立判断的“钝感”

策略六 降低自己被证伪的概率

策略七 不断学习，并在适应中快速进化

策略八 探索未知&利用已知，在攻和守之间进行权衡

策略九 理解贝叶斯的局限，小心应对“黑天鹅”事件

总结