1.演化博弈基础知识
经典博弈论起源于1944年Von Neumann和Morgenstern合著的《博弈论与经济学行为》,是研究理性决策者之间竞争和合作关系的数学方法。
博弈论主要研究完全理性的博弈个体为实现利益最大化而做的策略选择,在过去几十年取得了极大发展,但其假设条件、解的概念在理论和应用上都存在一定缺陷(王先甲等, 2011),主要有:
1. 完全理性 :一方面完全理性的概念没有严格定义,博弈论中参与者的理性是从负面界定的:指参与者在博弈中不选择被严格占优的策略,而不是像决策理论一样界定理性为选择与自己偏好一致的最优决策;另一方面这个假设对博弈主体过强(谢识予, 2002),不仅要求博弈主体信任博弈对手的理性个体,还要求博弈主体在确定或不确定的环境中具有完美的判断和预测能力。
2. 均衡形成过程:在经典博弈论中,纳什均衡是博弈各方参与者相互间的最优反应,在单次博弈中直接假设均衡状态是博弈参与者自省后自动达成的结果,这既无法反应博弈参与者的学习过程,也不符合实际情形,经典博弈论并不能描述博弈参与者根据博弈对手的行为不断做出最优反应直至达到纳什均衡的动态调整的过程。
因此,Smith和Price(1973)借鉴了生物学中进化论的思想提出了演化博弈论。演化博弈理论放宽了经典博弈论关于完全理性的假设,博弈个体是有限理性的;演化博弈理论中的策略均衡不是一次性选择结果,而是博弈主体不断进行学习和策略调整的结果,且即使达到了均衡也可能偏离。
2.演化博弈研究文献
演化博弈研究文献点击下载
本文的学习过程,主要是以学术文献中的实验过程进行分析,学习其进行演化博弈的具体流程。本次,主要选择的是一个三方的演化博弈的文献。
-
其中企业作为一个主体,因为追求利润的最大化,会选择性的采取是否进行低碳排放;
-
政府会投入一定的人力、物力、财力等对企业进行监督,对实施碳减排的企业给予奖励或者补贴等激励 措施,反之对不实施碳减排的企业给予惩处;
-
环境 NGO 对企业是否实施碳减排进行监督,曝光不实施碳减排的企业。
文章指出,传统的研究都是基于消费者,政府,企业三方进行展开,并且没有考虑到环境NGO在企业节能减排的过程中的积极作用。更多的研究是局限于两两之间的博弈,并未基于三方的过程进行博弈。
通过构建企业、政府和环境NGO的三方非对称动态演化博弈模型,分析低碳经济下企业碳减排行为的演化稳定策略及各主体策略达到理想状态的稳定条件,并探讨三者的互动机制及影响企业碳减排的主要影响因素,以期为我国发展低碳经济及企业碳减排提供理论基础及有益借鉴。
3.三方演化博弈模型假设及建立
3.1演化博弈假设
( 1) 博弈主体 常常作为假设第一步
博弈中涉及企业、政府和环境 NGO 三个参与 群体,且都具有有限理性。
( 2) 博弈主体行为策略 需要构建出每个主体的策略
-
企业的行为策略集S1= { K1 采 取,K2 不采取} ,“采取”是指企业进行技术创新或者引进先进 的技术设备采取低碳生产的方式从而使企业降低 能耗减少碳排放; “不采取”是指企业按照传统的 生产方式,不采取任何措施减少碳排放。
-
政府的行 为策略集 S2 = { M1 调控,M2不调控} ,“调控”是指政府投入一定的人力、物力、财力等对企业进行监 督,对实施碳减排的企业给予奖励或者补贴等激励 措施,反之对不实施碳减排的企业给予惩处; “不 调控”是指政府不采取任何手段干预企业是否实 施碳减排的行为。
-
环境 NGO 的行为策略集 S3 = { N1 监督,N2 不监督} ,“监督”是指环境 NGO 对企 业是否实施碳减排进行监督,曝光不实施碳减排的 企业; “不监督”是指环境 NGO 不行使其监督权
(3) 博弈主体行为策略采取概率 需要定义出每个主体每个策略的采取概率
-
假设在企业、政府和环境 NGO 三个群体博弈 的初始阶段,企业选择“采取”策略的概率为 x,选 择“不采取”策略的比例为 1-x;
-
政府选择“调控”策 略的比例为 y,选择“不调控”策略的比例为 1-y;
-
环境 NGO 选择“监督”策略的比例为 z,选择“不监 督”策略的比例为 1-z。其中,0 ≤x ≤1,0 ≤y ≤1, 0≤z≤1。
(4) 定义演化博弈模型中的涉及参数 需要考虑清楚每个主体之间的利益和成本
3.2演化博弈模型建立
建立完假设后,需要构建相应的演化博弈模型的策略组合,以及相应的收益矩阵。
由于企业和政府、NGO每个主体都有两种策略,因此,一共有2×2 × 2=8种策略
根据企业、政府和环境 NGO 的行为策略,可以 得出三者之间的博弈组合有八种,即
( K1 采取,M1 调控,N1 监督) 、
( K1 采 取,M1 调 控,N2 不监督) 、
( K1 采取,M2 不调控,N1 监督) 、
( K1 采取,M2 不调 控,N2 不监督) 、
( K2 不 采 取,M1 调 控,N1 监督) 、
( K2 不采取,M1 调控,N2 不监督) 、
( K2 不采取,M2 不调控,N1 监督) 、
( K2 不采取,M2 不调控,N2 不监 督) 。
根据表 1 参数假设可知,当策略组合为( K1 采取,M1 调控,N1 监督) 时,企业需要支付低碳生产所产生的低碳设备、技术及人力成本 C1 ,同时可 以获得一定的收益及政府给予的企业低碳生产的 补贴 S1 ;
政府调控需要付出一定的人力、物力、财 力等成本 C3 ,同时可以获得企业低碳生产带来的潜在收益 ==E3 ==;
环境 NGO 对企业进行监督需要付出 一定的监督成本 C5 ,其监督行为的前提是获得政 府资助 S2 和公众资助 S3 。
同理,可以得出企业、政 府和环境 NGO 在其它策略组合下的收益潜在收益 E3 ; 环境 NGO 对企业进行监督需要付出 一定的监督成本 C5 ,其监督行为的前提是获得政府资助 S2 和公众资助 S3 。
同理,可以得出企业、政 府和环境 NGO 在其它策略组合下的收益。
计算过程,梳理出每个主体在采取和不采取相应策略时所涉及的收益和成本:
企业
1.采取K1:低碳生产
E1企业采取低碳生产获得的收益
C1企业采取低碳生产所支付的低碳设备及技术等成本
S1缺府调控时对采取低碳生产的企业给予的补贴
2.不采取K2:传统生产
E2企业采取传统生产获得的收益
C2企业按照传统生产所付出的成本
G1政府调控时对采取传统生产的企业实施的罚款
G2环境NGo实行监督策略时使传统生产的企业遭受的损失
政府
E3企业低碳生产给政府带来的潜在收益
C4政府在企业传统生产时需付出高能耗带来的环境污染治理成本
1.调控 M1:耗费人力等监督成本
C3 政府采取调控策略时付出的人力、物力、财力等成本
⒉不调控M2:对企业不干预
环境NGO
1.监督N1:对企业监督
C5环境NGo对企业进行监督产生的监督成本
S2环境NGo实行监督策略获得来自政府的资助
S3环境NGo实行监督策略获得来自公众的资助
2不监督N2:对企业不监督
根据以上的公式,套入具体的参数,就可以得到下面的每个主体的收益矩阵想·