关于在决策推演中计入博弈行为的评述

2023-08-31 08:00薛禹胜吴巨爱谢东亮

电力系统自动化 2023年16期

薛禹胜，吴巨爱，2，谢东亮，黄杰，蔡斌

（1.国网电力科学研究院有限公司（南瑞集团有限公司）,江苏省南京市 211106；2.南京邮电大学自动化学院、人工智能学院,江苏省南京市 210023）

0 引言

现实世界是由许多有人参与的复杂巨系统［1］构成的,例如,经济系统、能源系统、交通系统、社会系统等。随着社会文明进程的演化,人类社会个体行为的多元化、多样化得到全面的发展。目前,包括能源行业在内,多学科领域的研究已将目光聚焦到决策行为研究的视角上［2］。在能源系统中,智能电网是利用智能监测技术、控制技术、通信技术以及自愈技术装备起来的电力网络,它可以为电力产消者（prosumers）提供更便捷的服务和更灵活的选择,同时提高供电的可靠性和安全性［3］。究其本质而言,智能电网被认为是典型的信息物理系统（cyberphysical system,CPS）,呈现出信息系统与物理系统的深度融合［4-5］。在市场开放环境下,随着系统中参与者重要性的提高,原先CPS 的分析框架中需要纳入社会因素［6］,“CPS+社会因素”即构成了信息物理社会系统（cyber-physical-social system,CPSS）。CPSS 强调CPS 向外部领域的拓展,顺应能源转型的本质需要,能源的信息物理社会系统（CPSS in energy,CPSSE）概念的提出为实现“双碳”目标提供了路径优化的分析框架［7-9］。

针对CPSS 的研究中,研究对象除CPS 外,涉及了更为复杂的人与社会系统的认知、建模与分析,而对决策行为的精确刻画是其中的关键科学难题。区别于自然科学,在机理上,决策行为的“输入-输出”并非可以通过解析方式精确描述的各类物理、力学、化学、生物等传统意义的科学定律或公式,并形成在物理、数学上的因果关系,而是心理学上的因果驱动关系［10］。这也导致决策行为难以通过经典的可以直接控制系统行为的“牛顿定律”建模与分析。

文献［11-12］指出经典的研究范式包括实验研究、理论研究、计算科学等3 种,大数据时代又催生了被认为是第4 种研究范式的基于数据驱动的大数据范式。前3 种研究范式被普遍认为是针对因果型数据的研究范式；大数据是指具有复杂结构,包括不具有或尚未掌握其因果关系的数据集,大数据范式以统计型数据为主要研究对象；CPSS 中由于包含参与者决策行为的博弈型数据（行为型数据）的加入,导致上述研究范式的适用性与有效性的降低。

本文探讨了针对CPSS 的研究中参与者的决策博弈行为如何接入仿真,分析了传统仿真方法与决策行为建模的适用性与不足,进而总结了融合真实实验人、多代理模型以及数学模型的混合仿真研究范式。同时,用作者团队已有的研究案例分别从数据采集、知识提取、仿真分析等方面解析决策支持中计入博弈行为的研究,以此说明混合仿真方法是解决并实现多决策场景中参与者决策博弈行为的复现、推演与预测的有效研究范式。

1 影响决策行为的因素

从瞬间的灵感到持久的思维方式、从个体行为到群体行为的“涌现”,人的决策行为由内生驱动,既不是随机发生的,也不全部遵循固定的程式,并随着外部环境的变化而演变。

如图1 所示,参与者决策行为主要受决策时的博弈环境、用户的感知能力和行为偏好影响。其中,博弈环境为外生因素,主要指其他决策主体的决策,各决策主体间的交互关系,以及决策时的外部信息。感知能力和行为偏好为内生因素,感知能力反映了决策主体的个体差异,包括不同参与者信息不完全或不对称的记忆状态（已掌握的历史信息）、对历史信息的处理和推理能力、对新信息感知的学习能力,以及包括情绪、疲劳程度、心理波动在内的决策时的状态。行为偏好分为自制力与自利性两方面,缺乏自制力表现为决策主体因缺乏自我控制而无法坚持所制定的计划；自利性决定了决策的目标,即使是完全相同的场景下参与者仍可能具有不同的自利性程度。

图1 影响决策行为的因素Fig.1 Influencing factors of decision behavior

2 传统仿真方法

仿真是掌握复杂系统行为的有效手段,仿真能够处理复杂的数学问题,同时又能模拟大规模决策主体互动的“涌现”现象。研究中可以根据实际需求设定观测的变量,开展针对性的仿真实验。对于决策行为研究而言,借由仿真可以研究决策行为在不同输入下的响应,分析决策的动态特性以及预测未来的决策行为。

2.1 计算仿真

计算仿真也即完全基于模型的仿真活动,其对实证分析的价值取决于模型的准确性。因此,在获取系统结构模型的同时,对复杂系统的仿真绕不开对参与者行为的建模。

2.1.1 动力学模型与多代理模型

参与者的决策行为模型一般分为系统动力学模型（system dynamic model）或多代理模型（agentbased model）［13-14］。系统动力学模型采用“自上而下”的设计思路,将参与者行为聚合为少数类别,并认为同一类别内的参与者行为是同质的,通过改变个体数量、行为特征参数、系统信息传递能力等,研究系统随时间演变的长期行为,此建模方法的核心在于掌握该类参与者的整体行为模式。多代理模型则是“自下而上”的建模,侧重于对个体行为以及个体之间的相互关系建模,个体代理的行为通常是异质的,由该代理行为及其与其他代理的交互关系构成,并通过个体代理间的相互作用涌现出参与者群体的行为模式。

2.1.2 建模方法

具体的决策行为建模方法分为解析法和数据驱动法。对于解析法,无论是优化模型［15］还是博弈模型［16］,均需确定参与者的效用函数（例如收益最大化［17-18］、预期后悔最小化［19-20］、价格需求弹性［21-22］等）。数据驱动法的核心在于通过分析大量数据获取知识,可用于辨识模型参数或建立通用模型,虽然知识模型存在由人工构建还是数据自动导出的差别,但两者并不对立且可互为补充［23-24］。在完全依靠数据统计分析的过程中加入人工构建的数学模型作为指导,有助于提高统计分析的适用性与精度；在完全依靠数学模型分析的过程中加入数据统计分析,有助于提高数学模型分析的效率［11-12］。

数据驱动中常用的数据分析方法有:分类、聚类、关联（相关、回归等）、判别、主成分分析、统计推断等［25］。近年来,利用机器学习等人工智能算法的数据挖掘方法已成为研究的热点,而其中典型的模型结构包括:强化学习［26-27］、深度学习［28］、神经网络［29］、决策树［30］、贝叶斯网络［31］、支持向量机［32］、正则化［33］等；例如文献［26］基于Q-learning 构建金融市场的交易决策；文献［28］通过深度学习利用神经网络的非线性拟合能力,构建用户的需求侧响应行为模型；文献［30］则采用决策树分析了人驾车在交叉路口车辆合流时的避让决策问题等。

借助决策行为模型群体规模可变的优势,计算仿真可开展大规模重复仿真研究,进而实现因素阈值变化对决策结果影响的灵敏度分析,或通过多次仿真探寻重复决策中的信息反馈与学习效应对决策结果的影响。

2.2 实验仿真

实验仿真借鉴自然科学实验的方法,通过真实人参与的实验来探究在一定的社会环境中支配行为的内在规律。实验仿真方法最具代表性的是将其应用于经济学领域的实验经济学方法,弗农·洛马克斯·史密斯（Vernon Lomax Smith）因为其对实验经济学的开创性研究分享了2002 年度的诺贝尔经济学奖［34］；实验经济学方法克服了以往市场经济与社会科学的研究无法计及人们主观意愿及博弈行为的影响,为机理研究及决策优化提供了有力支持。

实验仿真与计算仿真的本质区别在于主观行为（人的经济活动或决策）是否可用客观模型准确描述。前者认为无法准确描述,因此在实验仿真过程中有人参与,在能源经济研究领域中具有代表性的仿真应用有PowerWeb［35］；后者认为可以准确描述,所以计算仿真过程中没有人的参与,典型的仿真应用包括MASCEM［36］、AMES［37］、EMCAS［38］等。

2.3 传统仿真方法的局限

基于解析法建模的效用函数以理性人作为基本的建模依据。然而,通过唯象观察并不能得出决策人是利他还是利己的结论,将演化生物学中生物行为的最优化理论套用到参与者的决策中亦缺乏理论与实践的说服力［39］。诺贝尔经济学奖获得者赫伯特·西蒙（Herbert Simon）首次提出有限理性经济人的概念［40］,有限理性或非理性行为的不确定性体现为不同参与者的决策行为存在差异,以及同一参与者的决策行为无法保持一致性（即使两次面对同一问题也可能作出不同的决策）。理查德·塞勒（Richard Thaler）将现实中人在决策过程中存在的非理性特征归纳为有限认知、有限自利和有限自制力［41-42］。

对于有限理性或非理性行为,由于行为偏好的不确定性导致难以确定其效用函数；即便是基于演化博弈论（结合博弈论分析与动态演化过程分析）或模糊理论［43-44］的方法,虽然个体行为的动作策略可以以固定或随机的方式更新,但其更新的规则仍是固定的。

虽然基于数据驱动方法可以直接通过已有数据建立通用模型,侧重于数据中的相关性研究,这同样适用于由心理学因果驱动的决策行为建模。但其建模方法一方面存在高质量数据难以获取的问题；另一方面无法探究其构建的模型内在机理,对微观决策行为的解析存在欠缺。

实验仿真方法对于复杂系统中参与者决策行为的分析,一方面需要系统完整的动力学模型,另一方面则受到系统、场地、合格人员规模及研究时间的限制。另外,在灵敏度分析时难以保证实验人的决策思维过程在多次重复实验中保持不变。

3 混合仿真方法与已有研究案例

3.1 混合仿真方法

基于上述原因,急需探寻新的参与者决策行为研究范式。通过融合真实实验人、多代理、数学模型的动态交互仿真,笔者团队提出基于混合仿真研究参与者决策行为的方法［45］。仿真中构建多数理性参与者的多代理模型,利用多代理在仿真实验中决策的可重复性；并同时将关键少数参与者通过人机接口接入多代理仿真环境,用以反映非理性的主观意愿或博弈行为。图2 反映了混合仿真方法的结构流程,其本质是融合统计分析、因果分析与行为分析的数据驱动方法与实验研究、理论研究、计算科学等研究范式相结合的沙盘推演方法［13］。仿真中需处理不同类型数据（统计型数据、因果型数据、行为型数据）的融合,其中,构建数学模型的数据类型除了统计型数据外,还隐含了网络拓扑、结构等确定性数据。

图2 混合仿真中不同类型数据的融合Fig.2 Integration of different types of data in hybrid simulation

混合仿真支持真实实验人、计算机代理、数学模型同时进行动态交互仿真,将包括问卷采集信息在内的统计型数据建立完整反映答卷人群的计算机多代理。同时,真实实验人将已有信息用于辅助决策,实验人对已有历史信息的认知程度与处理能力反映了其决策博弈的能力。通过对动态交互仿真结果的分析,以及系统推演运行情况的知识提取可持续修正数据模型的准确性,辅助问答卷的设计并改进多代理模型的准确性。同时,可进一步补充用于辅助真实实验人决策的信息量。

对于CPSS 这类包含社会行为的复杂系统而言,其中涉及人与社会的动态变化,一方面行为模型的准确性难以利用实证与统计数据进行校核。另外,研究的问题本身也是不断发展变化的。因此,针对CPSS 的研究无法通过令人信服的整体解析模型对系统行为进行预测、推演与分析。混合仿真方法可以通过精心设计的人工实验,实验中借助真实社会试验无法实施的决策的可重复性,实现外部环境动态适应下的滚动迭代决策,从而形成控制上的闭环反馈研究范式。

3.2 已有研究案例

过去数年里,基于混合仿真方法,以及自主开发的CPSS 仿真平台（simulation platform for cyberphysical-social system,Sim-CPSS）［9,46-48］,作者团队通过实验仿真进行数据采集,提出融合多类型数据的数据分析方法,构建符合采样人群博弈行为高维联合概率分布的多代理模型,并陆续开展了电动汽车（electric vehicle,EV）用户购置意愿［45,49］、出行意愿［50-51］与参与电网辅助服务行为的沙盘推演,以及碳市场交易决策行为的沙盘推演［52-54］,以辅助交叉领域的决策支持与系统态势分析。其中,涉及多类型数据的融合分析,从统计型数据中发现因果,以及基于知识提取的多代理建模与仿真。

做好“自己”就是首先要将自己的工作和问题解决好。毕竟打铁还需自身硬。所以练好自己的本领可以做到具体以下两个措施：

以下将分别围绕代理模型的外在输入、输入到输出的映射、模型参与混合仿真三方面对已有研究案例展开论述。

4 模型的外在输入

混合仿真中代理模型输入特征量的获取,可基于决策博弈行为的机理分析,或依据大量历史数据的相关性分析。构建多代理模型的数据来源包括调查咨询、专用采集设备、文献文档、专家知识、模型仿真、实验仿真等。

EV 用户意愿（购置、出行）研究采用基于问卷调查的数据采集方式,碳市场交易行为研究的数据来源于交易仿真进程中记录的交易决策数据。由于特征量获取与数据采集的先、后关系,上述两者数据采集的区别在于:问卷数据为指定特征量的给定特征空间数据（特征量的获取先于数据采集）,而仿真交易记录的数据为未指定特征量的全特征空间数据（数据采集先于特征量的获取）。

4.1 基于问卷的给定特征空间数据采集

问卷调查是一种静态断面数据采集方式,通过分析给定场景下一组实验人对决策选项的选择（对于开放式提问,实验人也可以自由编写用于应答的决策）,以获取一组实验人的行为或意愿的统计数据。问卷调查所收集的数据一般有6 种类型:当前的行为、过去的行为、对承担义务较大问题的态度、对承担义务较小问题的态度、未来的行为、未来的态度［55］。用问卷调查进行定性研究一直是社会科学研究领域中比较传统的研究方法,但目前在定量研究中也得到了广泛的应用,尤其是模型分析中定量分析在缺失值处理、非线性关系、测量层次、测量模型、潜变量模型、分析单元的层序性、社会网络模型、系统动力学、预测模型、计算机模拟等方向已经有了突破性发展［56］。

设计问卷前需要对问题本身进行评估,在调查之前应该尽可能地让受访者理解问题。因此,问卷设计需要仔细、反复地推敲问题的措辞,尽量让问题足够明晰和简洁,并与所设定的研究目标相一致。

采用问卷调查采集用户行为数据的难点在于:1）获取影响用户行为的全部因素；2）在权衡问卷中问题数量的同时,通过问卷设计实现调查场景的全覆盖。EV 的购置意愿与出行意愿研究中,区别于影响用户购置意愿的5 个因素互相独立（按各因素分别设计问卷问题即可）,出行意愿研究中影响出行决策各因素之间的因果逻辑性更强,且高度关联。另外,由于用户面临的具体出行场景众多,为了避免引起答卷人的反感与应答疲劳,在问题设置时不仅不能依靠对场景的穷举,反而要尽可能压缩问题数量,这势必要在问卷设计阶段将影响因素间的因果逻辑关系解构。这也表明,调查场景数目较多时,通过问卷的方法获取高质量的数据依赖于能否在问卷设计阶段解析出影响因素的因果机理或因果关系。此外,针对不同因素对用户决策判断影响的内在机理难以解析的问题,问卷方法可以通过人工干预的方式（设置影响因素重要性排序问题）探究决策行为机理,从而获取影响因素对用户决策影响的内在逻辑顺序。

4.2 基于仿真实验的全特征空间数据采集

由于交易的场景众多,同时在影响交易行为的因素尚不明确,以及对因素间影响机理认知不足的情况下,碳市场交易决策行为初始数据的采集难以通过指定特征量的方式完成。因此,研究中在多个时间断面进行碳市场仿真交易,通过全特征空间数据采集方式记录用户的碳交易决策行为。通过对动态交易数据的知识提取可有效改善影响因素及其因果关系不明确的问题,解决该问题后,后续的数据采集可进一步聚焦指定特征量进行。

4.3 多类型数据的融合

EV 用户意愿与碳市场交易决策行为研究采集的数据均包含典型的统计型数据与行为型数据。然而,EV 用户意愿的研究中,由于在问卷设计阶段对影响因素间逻辑关系进行解构,其本质即融入因果分析,这使得原本单纯的问卷统计数据中具备了因果相关性信息。影响因素重要性排序的提出也进一步强化了这一过程,这为统计型数据中挖掘因果提供了可行的方法,提升了统计型数据的知识提取价值与便捷性。

5 输入到输出的映射

5.1 多代理建模

第2 章指出除了采用优化模型、博弈模型描述代理的行为模型外,常用的还有数据驱动方法,或融合解析与数据驱动的方法。

利用获取的数据构建相应的计算机多代理模型是混合仿真的关键一环,尤其是面临专业的真实实验人稀缺的情况,生成符合条件的多代理则显得愈发重要。多代理模型需满足与指定人群决策/意愿在统计分布上的一致性,这将直接影响混合仿真结果的有效性。基于统计型数据、因果型数据、博弈型数据中的一种或多种均可以生成模拟用户决策行为的多代理模型。图3 分别反映了利用采集的数据构建EV 购买意愿以及碳市场交易决策多代理的流程图。

图3 基于数据知识提取的多代理生成流程图Fig.3 Flow chart of multi-agent generation based on data knowledge extraction

传统的问卷数据一般为统计型数据,涉及问卷数据的研究时,利用统计的方法易得单一特征量阈值与用户决策结果的相互关系。但是,用户的决策过程往往表现为受多个特征量的共同影响,考察其中一个特征量与决策结果之间的相互关系时,同一份答卷中往往隐含了答卷人对其他特征量的确定性看法,因而答卷人群对所有影响因素心理阈值的联合概率信息也就必然隐含在答卷的全集之中。因此,在EV 购买意愿多代理建模的过程中,必须按答卷人群意愿的高维联合概率分布来抽样选择各影响因素的心理阈值,其中包括因素重要性排序的条件概率分布与各因素阈值取值的条件概率分布。基于上述数据结构反映的分布权重,通过蒙特卡洛方法完成意愿的随机抽取,最终构建重现答卷人群EV购置意愿分布的多代理模型。

碳市场交易决策多代理建模的过程中,首先基于历史数据挖掘驱动碳市场交易决策行为的关键因素；然后,引入先验因果关系知识,以此构建不同因素间的贝叶斯网络结构；接着,基于实验经济学仿真实验获得的样本数据,挖掘拟合不同因素间的条件概率分布；最后,构建重现碳市场参与者交易决策行为的多代理模型。

5.2 样本不足的处理

多代理建模的过程中,遇到样本不足或数据不完整是其中的常见现象,通常的处理方法有:1）直接抛弃不完整的样本；2）基于专家知识手工补充缺失的特征值；3）用训练数据集中的某种可信统计量（如均值、中位数、回归值等）填补缺失的特征值；4）应用机器学习方法补充缺失的特征值；5）将特征量的阈值范围重新分类。

针对EV 购置意愿的研究中,分别利用多因素阈值半开区间的兼容性以及采用单因素阈值的独立概率分布的近似提取方法,也即采用全局或部分全局常量近似代替局部缺失的特征值。另外,由于重要性排序方法的使用,确保了在构建高重要性因素阈值的概率分布时能够尽可能利用到更多的样本,对于低重要性的因素在必要时则采用近似方法。

6 模型参与混合仿真

6.1 代理的决策过程

由于研究对象与决策目标的不同,上述两种代理模型的决策判据也存在一定的差异。

EV 购买意愿代理为按影响因素重要性依次判断的决策树模型,研究中设置5 个因素（续驶里程、充电时间、购买价差、购买价格、燃料价格）的阈值均满足时输出代理有购置EV 的意愿。针对此类问题的研究,也可依据数据分析或专家知识调整需满足阈值的因素个数（例如,设置重要性排前3 的因素阈值满足即输出代理有购置EV 的意愿）。

碳市场交易代理的决策过程如图4 所示。通过对驱动交易决策的客观因素与主观因素的因果分析,将影响交易决策的因素提炼为“市场态势判断”与“交易迫切性”两类。决策过程中,代理采集市场信息及自有信息,计算特征变量rft、rpt、和rut的取值（rft为碳价的长期价格趋势,rpt为碳价的短期价格趋势,rut反映了碳排放不平衡量及当前时刻与履约时刻的远近）,基于交易决策行为与特征变量的联合概率分布进行随机抽样,确定交易行为（平均交易量dq为正值表示购买,为负值表示出售）。

图4 碳市场交易代理的决策过程Fig.4 Decision-making process of carbon market trading agents

6.2 代理行为的识别与混合仿真接入

EV 用户意愿和碳市场交易代理建模完成后,分别采用与问卷群体统计结果对比,以及与实际碳市场走势对比的方法进行了代理的有效性验证。除此以外,辅助决策支持的大规模混合仿真推演分析还面临确定接入仿真中的代理群体与真实实验人数量这一关键问题。

混合仿真中,接入实验的代理与实验人的数量与各自的行为偏好密切相关。由于采用真实实验人反映用户的非理性行为,有必要在仿真实验开始前,在基于训练样本集构建的多代理群体（既存在理性行为,又存在非理性行为的代理个体）中筛除存在非理性行为的代理。代理行为的非理性大致可表现为两类,一类是其决策行为与群体决策行为有较大偏离的,另一类则是同一场景下其决策行为有较大偏离。

对代理非理性行为的准确识别,除了在决策行为的仿真预测中彰显了必要性,在灵敏度分析时,通过摄动不同偏好的多代理个体数量（或真实实验人个体数量）参与仿真,对于发现影响系统整体行为复杂性的关键个体以及其影响系统行为的内在机理同样也至关重要。

7 结语

CPSS 除了涉及自然学科,还涉及行为学、心理学、经济学等社会学科,需要相应研究范式的融合。由于以计算仿真和实验仿真为代表的传统仿真方法孤立地使用模型或真实实验人表达其中的决策博弈行为,导致对复杂社会系统的研究存在适应性不足的问题。混合仿真方法用有效性验证过的多代理模型代替理性行为,用真实实验人参与仿真实验反映非理性行为,有效克服了传统方法难以支撑对参与者规模、非理性行为、灵敏度分析的可比性等方面的要求。

在给出的案例中,EV 用户意愿的统计建模过程反映了影响因素的重要性排序,针对高维空间中学习样本不足及分布不均匀的困难,纾解了多级分类顺序及各级分类阈值优化中遇到的困难；在碳交易决策行为的建模中引入了不同因素间的贝叶斯结构,以更好地归纳学习样本集所包含的信息。

混合仿真方法为探索CPSS 中的决策行为研究指明了方向,已有案例在数据采集、知识提取和决策支持的分析链中逐渐形成了各自的理论与实践创新。随着更多社会元素的融入,研究对象将进一步多元化与复杂化,使得混合仿真方法仍有大量的提升改进空间,包括:借助Sim-CPSS 搭建更为逼真的仿真环境、协同处理不同类型数据、模型分析与数据驱动的有机结合等,并需要更多实际案例的验证。