演化博弈视角下生态补偿责任主体稳定均衡策略

2023-08-07 12:58魏强,吕静

河北大学学报（哲学社会科学版） 2023年4期

魏强,吕静

(1.河北大学经济学院,河北保定 071002;2.河北大学学术委员会,河北保定 071002)

一、引言

人与自然和谐共生是中国式现代化的重要特征,生态补偿所蕴含的丰富的生态命运共同体思想为人与自然和谐共生的现代化探索提供了科学路径[1]。中国的生态补偿是在政府为主导、市场为主体、全社会共同参与原则下,以提供高质量生态系统服务、满足人民日益增长的优美生态环境需要为目标,以实现生态环境资源共享、环境治理区域联动、环境经济协调发展为导向,依据生态系统服务价值、生态保护成本和发展机会成本,明确补偿主体、补偿标准和补偿方式,采用政府规划和市场调控相结合的手段,推进生态系统服务受益的发达地区对提供生态系统服务的欠发达地区给予补偿的一种制度安排[2-3]。以往许多学者针对生态补偿责任主体间的博弈过程开展过研究。一些学者从二元主体的角度研究生态补偿的博弈过程,认为生态补偿机制的构建是地方政府之间博弈的结果,单纯依靠地方政府的自主选择无法达到生态补偿的稳定均衡状态,只有通过引入更高等级的政府监管约束因子,才能实现行为选择的最优策略[4-7]。也有一些学者从三元主体的角度研究生态补偿的博弈过程,如王晓莉等认为,地方政府在生态补偿扶贫项目推广中具有关键作用,在农村合作社和农户愿意接受生态补偿标准的情况下,地方政府就能够直接推动实现策略选择的稳定均衡[8];刘加伶等研究了水资源开发生态补偿过程中中央政府、当地政府和地方企业三方主体之间的博弈关系,认为中央政府提高补偿水平、地方政府征收资源环境税、企业减少排污构成了演化博弈的均衡策略[9]。

在中国生态补偿机制建设过程中,由于生态产品投入较大、短期经济收益不明显、市场化程度较低,企业、公众等社会力量参与生态补偿的积极性不高,导致了支付渠道单一、补偿资金缺口大、补偿标准一刀切等突出问题,严重影响到生态补偿在协调环境保护和社会经济发展可持续性中的作用[10-12]。纵观以往学者们的研究,虽然系统揭示了生态补偿责任主体之间的博弈过程,但在责任主体选择上,大多数研究关注的是地方政府二元主体之间的博弈关系,在探讨三方主体博弈关系研究中,责任主体未能很好地体现生态补偿机制建设中应当遵循的“谁开发谁保护、谁受益谁补偿”的基本原则,也未能有效衔接“建立市场化、多元化生态保护补偿长效机制”的内在要求。为此,本研究在以往研究的基础上,选择政府、生态系统服务供给者和生态系统服务受益者三方责任主体,探讨社会力量参与下的生态补偿博弈过程及其实现稳定均衡的一般规律,以期为中国建立市场化、多元化的生态补偿机制提供理论参考和决策依据。

二、生态补偿演化博弈理论模型

演化博弈论是在传统博弈论基础上,放宽完全理性和完全信息的假设,探讨在有限理性和信息不对称条件下,通过博弈者之间的学习、模仿、试错和修正,不断对行为策略进行动态调整,最终实现博弈均衡的过程[13]。有限理性与信息不对称的假设说明博弈主体对于博弈结构和规则并非“全知全能”,掌握的程度有限,而且博弈主体之间也缺乏相互了解,因此动态博弈一般不会通过声誉机制来影响对方的行动,再次博弈的发生概率较低[14]。在演化博弈过程中,当博弈主体积累了关于各种纯策略被采用时的相对优势信息,并根据其既得利益不断地在边际上对策略进行调整以追求自身利益的改善时,将会选择用“较满足的事态来代替较不满足的事态”,最终达到一种动态平衡状态。在这种平衡状态中,当博弈主体的任何一方都不再愿意单方面改变其策略时,就会在多重纳什均衡的精炼中实现纳什均衡[15]。

博弈主体对于其所采取的策略进行的动态调整一般都受到演化过程中规律性的选择机制和随机性的扰动因素的影响,在演化博弈模型中,前者通常被称为选择,指某一策略在得到群体的选择后具有一定的惯性;后者通常被称为突变,会使博弈过程中演化出的策略产生新的变异和特征。突变也是一种选择,只有好的策略才能被保留[16]。这说明,演化是对不同策略在博弈环境中的生存和复制能力的检验。演化稳定性策略不仅仅由策略本身的好坏决定,而且需要在与一组可选策略的相互比较中表现出相对优势,且其出现频率高于其他策略时才会被采纳。即使存在某一具有突变特征的策略,这一策略也不会取代群体策略,而是通过开展合作使博弈主体之间能够互惠共生[17]。

生态补偿机制建设涉及政府、生态系统服务供给者和生态系统服务受益者三方责任主体。政府在协调生态产品供给与需求关系中具有主导作用,主要发挥组织实施、转移支付和动态监管等功能,以提高生态补偿运行效率和社会福祉效应最大化作为目标;生态系统服务供给者主要指因生态环境保护而丧失了发展经济的机会,为社会提供生态产品的地区、企业、社会组织和个人,属于生态补偿中接受补偿的主体;生态系统服务受益者主要指享受生态环境保护惠益或造成环境污染与破坏,消费生态系统服务的地区、企业、社会组织和个人,受益者因自然资源开发或污染物排放而实现经济增长和自身发展,需要通过外部性内部化的方式解决由此产生的环境问题,因此是生态补偿的补偿主体[18-20]。生态补偿机制的构建是上述三方责任主体相互博弈的结果,本研究通过演化博弈模型来分析三方主体之间的博弈关系,为寻求三方责任主体之间的均衡策略探索生态补偿的有效途径。为此,本研究提出以下几方面假设。

(一)参与主体

政府、生态系统服务供给者和生态系统服务受益者是生态补偿博弈的三大责任主体。三者在策略选择上均为有限理性,政府实施生态补偿以社会福利最大化为目标;供给者和受益者参与生态补偿以自身福利最大化为目标。供给者自身福利最大化以生态补偿能够弥补损失的机会成本和保护成本为基本条件;受益者自身福利最大化需要对享受到的生态红利进行成本支付。任何一方责任主体的行为策略选择均受到其他责任主体行为策略选择的影响[21]。

(二)参与策略

在生态补偿组织实施过程中,假设政府存在高效组织实施和低效组织实施两种参与模式。在高效组织实施模式下,受益者主动参与生态补偿,支付的生态补偿资金能够满足供给者的基本生活和生态保护成本支出需求,在此条件下供给者能够积极主动地开展生态环境保护工作,不断提升生态系统服务供给的数量和质量;在低效组织实施模式下,受益者被动参与生态补偿,支付的生态补偿资金不能弥补供给者因生态保护而造成的机会成本损失,在此条件下供给者将消极被动地开展生态环境保护工作,不利于生态环境质量和社会福祉效应的提升。

(三)利益分析

上述假设情景下的政府、供给者和受益者三方的期望收益、成本、奖励、处罚、补偿等费用,如表1所示。政府在高效组织实施生态补偿时产生的社会总收益大于低效组织实施时产生的社会总收益,即W1>W2,但同时也需要支付较高的监管成本,即G1>G2。政府只有在高效组织实施生态补偿工作时才会对供给者和受益者采取相应的奖励或惩罚措施。受益者在主动参与和被动参与生态补偿工作时会获得不同的收益,需要支付不同的生态补偿金。主动参与时会得到政府给予的奖励R1;被动参与时会对社会和供给者造成额外的损失D1和D2,同时会受到政府的处罚P1。供给者积极和消极进行生态环境保护时损失的机会成本分别为O1和O2,积极进行生态环境保护时会获得政府给予的奖励R2;消极进行生态环境保护时会对社会和受益者造成额外的损失L1和L2,同时会受到政府的处罚P2。一般来讲,生态补偿以追求社会福利最大化为目标,政府高效监管、供给者积极保护、受益者主动补偿是期望的最优策略;当供给者进行生态环境保护时获得的生态补偿能够弥补其因环境保护损失的机会成本时,通常会采取积极的环境保护行动;而当获得的生态补偿无法弥补其损失的机会成本时,通常会采取消极的环境保护行动。

表1 演化博弈各主体成本收益指标及含义

(四)生态补偿演化博弈支付矩阵

假设政府高效组织实施生态补偿的概率用x表示,低效组织实施生态补偿的概率用1-x表示;受益者主动参与生态补偿的概率用y表示,被动参与生态补偿的概率用1-y表示;供给者积极进行生态环境保护的概率用z表示,消极进行生态环境保护的概率用1-z表示。

如表2所示,三方责任主体在给定概率下的支付矩阵和期望收益分别为:

表2 政府、供给者、受益者三方演化博弈支付矩阵

1.政府高效组织实施生态补偿时的期望收益

政府低效组织实施生态补偿时的期望收益

用表示政府在两种策略选择下得到的平均收益,则

2.受益者主动参与生态补偿时的期望收益

受益者被动参与生态补偿时的期望收益

用表示受益者在两种策略选择下得到的平均收益,则

3.供给者积极从事生态环境保护时获得的期望收益

供给者消极从事生态环境保护时获得的期望收益

用表示供给者在两种策略选择下得到的平均收益,则

(五)演化动态

根据Malthusian动态方程,可以得到政府、受益者和供给者之间的长期利益博弈行为和策略选择随时间演化的动力学方程[22]。

政府高效组织实施生态补偿的复制动态方程

受益者主动参与生态补偿的复制动态方程

供给者积极从事生态环境保护工作的复制动态方程

三、生态补偿演化博弈稳定均衡策略分析

在非对称博弈中,多群体演化博弈复制动态系统的渐进稳定解是一种严格的纳什均衡,即纯策略均衡。由复制动态方程可知,对于生态补偿三方责任主体之间的平衡关系,只需要讨论演化博弈动态过程的均衡点Q1(0,0,0)、Q2(0,0,1)、Q3(0,1,0)、Q4(0,1,1)、Q5(1,0,0)、Q6(1,0,1)、Q7(1,1,0)、Q8(1,1,1)这8个纯策略纳什均衡点的渐近稳定性即可。

均衡点的渐近稳定性由李雅普诺夫判别法进行判定,即当雅可比矩阵的所有特征值λ<0时,该均衡点是渐近稳定点,此时为汇;当雅可比矩阵中所有特征值λ>0时,该均衡点是不稳定点,此时为源;当雅可比矩阵的特征值λ有正有负时,该均衡点是不稳定点,此时为鞍点[23]。

对上述8个纯策略均衡点的稳定性分析结果,如表3所示。均衡点Q1(0,0,0)的特征值λ2和λ3均小于0,即(B1-C1)< (B2-C2)、(F1-O1)< (F2-O2)。原因在于,当政府处于低效组织管理状态时,供给者和受益者均存在机会主义行为,受益者主动参与生态补偿时的期望收益低于被动参与生态补偿时的期望收益,供给者积极进行生态环境保护的期望收益低于消极从事生态环境保护的期望收益,因此在这种情况下,当λ1<0,即(W1+P1+P2-G1)<(W2-G2)时,此时的渐进稳定点Q1(0,0,0)为唯一的演化稳定点;而当λ1>0,即(W1+P1+P2-G1)>(W2-G2)时,Q1(0,0,0)为鞍点。这就意味着,当生态补偿的社会福利收益相对较低时,政府将稳定在低效组织管理的状态下,而受益者和供给者则分别稳定在被动参与生态补偿和消极进行生态环境保护的状态下,此时三方都没有改变行动策略的动机,博弈系统处于较混乱的稳定状态。从中国实施生态补偿的过程看,在开展生态补偿初期,存在着生态补偿范围过窄、产权不清、融资渠道单一、补偿标准“一刀切”、法律保障不足、监管存在漏洞等一系列问题,这样的状态下,政府单方买单的支付方式与“保护者获益,受益者付费”的原则极不协调。因而,导致了生态补偿不能全面、准确地反映自然资源的稀缺性和社会经济价值的情况,未能有效扭转生态环境退化的趋势。

表3 策略均衡点稳定性结果

同理,均衡点Q1(1,1,1)的特征值λ2和λ3也均小于0,即(B2-C2-P1)<(B1-C1+R1)、(F2-O2-P2)<(F1-O1+R2),原因在于,当政府处于高效组织管理状态时,通过对受益者和供给者的行为监管,生态补偿将产生较高的社会总收益。此时受益者在主动进行生态补偿时相比于被动进行生态补偿时能够获得更高的期望收益,因此会拥有较强的自律性以及维持积极参与生态补偿的动机;供给者则通过积极的生态环境保护获得高于消极进行生态环境保护时的期望收益,较高的经济收入也能够促使供给者持续从事生态环境保护工作。在这种情况下,当λ1<0,即(W2-G2)< (W1-G1-R1-R2)时,渐进稳定点Q1(1,1,1)为唯一的演化稳定点;而当λ1>0,即(W2-G2)>(W1-G1-R1-R2)时,Q1(1,1,1)为鞍点。Q1(1,1,1)情形下的生态补偿演化过程稳定在政府高效组织设施、受益者主动参与、供给者积极从事生态环境保护的策略组合状态下,此时的生态补偿处于较为理想的规范状态,既能够有效解决突出的生态环境问题,也有利于使生态补偿责任体之间的利益关系保持协调状态。

基于上述分析结果可知,在生态补偿实施过程中,不论政府采取高效组织实施方式还是低效组织实施方式,受益者和供给者的策略组合总是处于“被动补偿和消极保护”与“主动补偿和积极保护”长期共存的状态,只不过这种共存状态下的演化稳定收敛趋势会受到政府、受益者和供给者三方所形成的演化博弈系统支付矩阵参数的影响,在不同状态下收敛于不同的均衡点。演化稳定性分析基于生态补偿社会福利收益的高低、政府低效组织实施时受益者和供给者均存在机会主义、政府高效组织实施时对受益者和供给者均发挥监管作用三个条件,当这三个条件发生变化时,三方的博弈演化稳定策略也将发生相应的变化。

首先,当生态补偿社会福利总收益不能满足(W1+P1+P2-G1)< (W2-G2)或(W2-G2)<(W1-G1-R1-R2)的条件,即当(G1-G2-P1-P2)<(W1-W2)

其次,当受益者和供给者机会主义成本较低的条件不能满足,即当(B1-C1)> (B2-C2)、(F1-O1)> (F2-O2)时,此时如果(W1+P1+P2-G1)<(W2-G2),渐进稳定点Q4(0,1,1)是唯一的演化稳定点;当(W1+P1+P2-G1)>(W2-G2)时,渐进稳定点Q8(1,1,1)是唯一的演化稳定点。这说明,当受益者和供给者的机会成本较高时,即使政府处于低效组织实施的状态,经过长期的博弈演化,受益者和供给者也将最终稳定在主动补偿和积极进行生态环境保护的状态下。因此,在这样的条件下,当政府低效组织实施的期望收益高于高效组织实施的期望收益时,低效组织、主动补偿、积极保护成为唯一的演化稳定策略;而当低效组织实施的期望收益低于高效组织实施的期望收益时,高效组织、主动补偿、积极保护成为唯一的演化稳定策略。

再次,当政府积极组织实施生态补偿对受益者和供给者形成的约束条件不成立,即当(B2-C2-P1)> (B1-C1+R1)、(F2-O2-P2)>(F1-O1+R2)时,此时当(W1+P1+P2-G1)<(W2-G2)时,渐进稳定点Q1(0,0,0)是唯一的演化稳定点;当(W1+P1+P2-G1)> (W2-G2)时,渐进稳定点Q5(1,0,0)是唯一的演化稳定点。这说明,当政府对受益者和供给者形成的约束力不足时,经过长期的博弈演化,受益者将稳定地选择被动参与生态补偿,而供给者将稳定地选择消极地进行生态环境保护。在这样的条件下,当政府低效组织实施的期望收益高于高效组织实施的期望收益时,低效组织、被动参与、消极保护成为唯一的演化稳定策略;而当低效组织实施的期望收益低于高效组织实施的期望收益时,高效组织、被动参与、消极保护成为唯一的演化稳定策略。

四、结论与建议

本研究基于生态补偿利益相关方构建了政府、生态系统服务供给者和生态系统服务受益者三方演化博弈模型,分析了生态补偿机制构建过程中三方行为决策的演化过程。研究结果表明,若要实现生态补偿社会福利最大化的目标,需要通过政府、供给者和受益者不断调整自身的行为策略,最终实现政府高效监管、供给者积极保护、受益者主动补偿的稳定均衡。降低成本、提高收益能够有效加快生态补偿三方责任主体实现稳定均衡的过程,加速构建融资主体多元、融资渠道广泛的市场化生态补偿体系,优化政府的有效监管和评估路径,能够因地制宜地确定生态补偿标准和补偿方式,并根据社会、经济、环境之间关系的演变情况不断进行调整,从而促进生态补偿体制建设弹性的不断提高。为此,基于本研究结果,针对中国生态补偿三方责任主体的演化博弈过程,提出建议。

1.政府作为生态补偿监管主体,要明确生态系统服务供给者与受益者定位,公正公开地开展生态补偿监督、审计和检查工作,严把资金使用审批关口,防止资金的混同与错位,实行单独核算、专款专用,并对资金使用的有效性进行评估,提高生态补偿资金的使用效率。在激励约束机制建设方面,虽然增大处罚力度可以提高社会福祉整体效益,但同时也会增加监管成本,降低社会力量参与的主观能动性和积极性。为此,政府一方面要推进环境污染赔偿,扣减生态环境保护考核不合格主体的补偿资金额度,严惩重罚生态环境违法犯罪行为,加大惩治力度,提高违规违法成本,同时也要赋予自然资源合法开发利用、主动接受监督以及积极参与生态补偿主体发展经济的权利,统筹社会经济与环境保护效益;另一方面政府要强化激励措施的正面导向作用,对生态保护成效显著的主体提高补偿额度并给予额外奖励,同时对其开展的生态环境保护工作进行广泛的社会宣传,提升企业和个人形象,营造“鼓励创新、宽容失败”的环境保护工作氛围,增强环境保护的价值认同,为全社会整体收益的不断提高创造机会。

2.生态系统服务供给者,首先要切实增强生态环境保护意识,把握“绿色发展”“双碳”目标下的政策导向,既要严格按照规定将生态补偿转移支付资金用于生态环境保护与修复,提升社会福祉效应;又要主动参与生态系统管理与保护相关工作,积极探寻经济效益与环境效益双赢的发展局面,不断增强自身的造血能力。其次要持续深化生态系统服务供给侧结构性改革,通过推动实施山水林田湖草沙一体化保护和修复来创造出更加多样化的生态系统服务供给机会,不断提高生态系统调节服务、文化服务和支持服务对社会经济发展的福祉贡献,拓展生态系统服务价值实现渠道,掌握生态补偿过程中的主动权,提高生态补偿资金的分配额度。再次要加快推行生产方式改革,加强人居环境整治,将生态系统服务价值的实现、增值纳入生态系统管理绩效评估与考核,大力发展生态农业、森林康养、林草碳汇等生态优势特色产业,增加生态系统服务市场活力,不断凭借丰富、高质和多元的生态系统服务获得额外的生态补偿奖励资金,从而充分弥补因开展环境保护而增加的成本支出以及失去的机会成本。

3.生态系统服务受益者,首先要增强生态系统服务付费意识,对于因经济生产或社会发展造成的环境污染和破坏行为,主动承担环境修复和赔偿责任,除了要及时、足额地向生态系统服务供给者支付生态补偿资金,还要采取市场化的运作方式,通过产业扶持、技术援助、人才支持等多元化途径给予供给者以补偿,从而充分调动全社会参与生态环境保护的积极性。其次要大力优化生产要素结构和产品结构,推动产业向低碳、绿色、智能和高端方向发展,不断提高自然资源利用率和产出率,减少因生产行为导致的生态破坏和环境污染,以及被动参与生态补偿等问题而带来的额外成本。再次要通过生产绿色产品和提供绿色服务树立良好的口碑和信誉,将生态补偿纳入发展战略管理体系,依靠生态技术研发、提升绿色信用等级等方式争取财政资金支持,通过与财政资金形成良性互动与优势互补来获得可持续的长期回报。