融合新闻影响力衰减的碳价格多元分解集成预测

2024-02-06 03:47张大斌黄均杰凌立文胡焕玲
关键词:词频影响力价格

张大斌,黄均杰,凌立文,胡焕玲

(华南农业大学 数学与信息学院,广东 广州 510642)

0 引言

碳交易是中国实现“双碳”目标的重要举措,其作为强而有力的碳排放控制机制,通过碳排放权的流转形成碳价格[1]。碳价格受到政策、能源和社会事件的影响,且数据具有非线性的复杂特征,导致准确预测碳价格十分困难,因此众多学者致力于碳价格预测研究。准确预测碳价格,有助于政府制定合理的交易机制,以及帮助市场参与者制定投资决策[2]。

随着大数据和信息技术的发展,将与碳价格相关的大量新闻信息获取、分析、量化为时间序列,并与碳价格融合进行预测,有助于提升预测精度。已有研究利用新闻来构建与气候相关的变量,预测湖北和广东碳价格[3];结合在线新闻数据和谷歌趋势非结构化数据预测碳价格[4];通过在线新闻文本挖掘投资者关注碳市场的关键词,构建基于颗粒群优化的长短期记忆神经网络碳价格预测模型[5]。新闻具有实时性和影响力,融合新闻数据提供了更全面的信息来源,有助于揭示碳价格的变化趋势。但在实际情况中,新闻对碳价格的影响通常不仅限于当天,而是在未来一段时间内产生持续的影响[6]。文献[7]引入霍克斯过程来估计财经新闻的时间衰减影响。文献[8]量化新闻文本中的情感信息,发现新闻对公众情绪的影响呈指数衰减。新闻中表达的观点可以向公众传达碳市场多方面的信息和意见,融合新闻影响力衰减可以更好地反映新闻信息的累积效应,提供更全面的信息,有利于提高预测精度,对碳价格预测具有重要启发。

虽然引入新闻文本数据可以增加预测的信息量,但由于数据本身的复杂性,预测变得更加困难。文献[9]创新性提出 TEI@I方法论,强调“先分解后集成”的思想,将原始时间序列分解为具有不同特征的分量,再分别进行预测,集成得到预测结果。常用的单变量分解方法,例如经验模态分解(empirical mode decomposition,EMD)在分解多元数据时,需要对各通道数据逐一分解,不适用于多元数据同时分解。文献[10]使用多元经验模态分解(multivariate empirical mode decomposition,MEMD)技术同时分解澳大利亚日度电力峰值负荷和气象。文献[11]实现了1种新的多元变分模态分解策略进行碳价格预测,同时将多个高度非线性和非平稳变量分解为包含相对规则的本征模态变量(intrinsic mode function,IMF)。研究结果表明,通过多元分解方法可以同时考虑多种因素之间的相互影响,更好地揭示数据的内在规律,从而提高预测性能。

鉴于上述新闻影响力衰减的量化问题,以及碳价格和新闻的多元分解对分析其相互关系和提高预测精度的重要性,本文提出了1种融合新闻影响力衰减的碳价格多元分解集成预测模型,并以中国湖北碳价格为例进行实证分析。本文研究贡献主要体现在以下两点:一是对碳交易相关新闻进行过词频统计和指数衰减,将衰减后的新闻影响力与碳价格数据融合进行预测,显著提高预测精度。二是针对单独分解在处理多元数据的局限性,采用噪声辅助多元经验模态分解(noise assisted multivariate empirical mode decomposition,NAMEMD)同时分解碳价格和新闻多元数据,保证了不同通道分量的个数和频率尺度匹配,为碳价格预测建模提供新思路。

1 研究方法

1.1 新闻影响力量化方法

1.1.1 新闻文本关键词词频统计

新闻关键词的词频统计,是指对新闻文本进行关键词提取,并计算特定关键词在每则新闻文本出现的次数,以量化新闻影响力。这种关键词词频统计方法能够展示新闻的热门话题,更全面地理解和分析新闻信息。本研究所使用的碳交易相关新闻数据来源于碳排放交易门户网站,运用中科院NLPIR中文分词系统[12]对所有新闻文本进行分词、关键词提取,选出与碳价格相关的词频前5的关键词:碳交易、碳市场、碳排放、减排、碳配额。通过对每日新闻文本中包含特定关键词的词频进行频次统计,该词频值的大小反映了当天新闻的影响力大小,揭示了关键词在新闻中的重要性和影响力。

1.1.2 新闻影响力衰减方程构建

本文致力于构建新闻影响力衰减方程,以更准确地描述新闻对碳价格的影响随时间的衰减过程。在现实情况下,新闻报道的影响力不会持续保持不变,随着时间的推移,其影响逐渐减弱。参照文献[13]关于网络新闻呈现指数衰减的研究和物理学的牛顿冷却定律[14],本文假设新闻影响力随着时间的推移以指数形式逐渐衰减,定义新闻影响力指数衰减方程[6]的公式如下:

N′(t)=-αN(t)。

(1)

求导N(t)的函数表达式:

(2)

根据lnx的导数为1/x,得到:

lnN(t)=-αt+c。

(3)

求解可得:

N(t)=Nte-αt,

(4)

其中:N(t)为衰减函数,即N在t时刻的新闻影响力衰减值;t为时间,t=0时,N(0)=Nt为初始时间单位新闻影响力产生的影响;α为衰减指数,其值大于0;e-αt为衰减系数。

(5)

1.2 多元分解与重构方法

多元数据通常包含多个维度的信息,具有复杂的关联和交互作用,导致预测建模变得困难。对时间序列进行分解可以降低复杂度,提高预测准确性[16]。针对多元数据,通过多元分解和重构,从中提取数据特征和分析数据模式,可以降低时间序列复杂性,提高预测性能。

1.2.1 噪声辅助多元经验模态分解

EMD方法适用于单变量时间序列,针对多元数据,文献[17]对EMD进行改进,提出了MEMD,但存在模态混淆现象导致预测误差较大。为了减少原始数据和重建信号之间的偏差,文献[18]提出NAMEMD算法,它在MEMD基础上,添加了高斯白噪声,与多元输入数据同时分解,以同步分析多维信号,有效避免IMF中的模态混叠问题,具体方法如下:

(6)

(Ⅵ)通过h(t)=v(t)-m(t)提取中间分量h(t),若h(t)满足终止条件即成为多元IMF,否则将v(t)-h(t)作为新的输入信号,重复(Ⅱ)~(Ⅵ)步;

(Ⅶ)减去噪声对应的m维分量,得到原始信号X(t)的Q个多元IMF和残差Res(t):

(7)

1.2.2 样本熵重构

样本熵理论以可以衡量时间序列的复杂性[19],序列越复杂,样本熵值越大;若序列越简单,其值越小。样本熵的计算步骤[20]如下:

(Ⅰ)将原始时间序列y(t)重构成d维的向量序列yd(i)={y(i),y(i+1),…,y(i+d-1)},其中i=1,2,…,N-d+1。

(Ⅱ)定义向量yd(i)和yd(j)之间的距离Dij,为两者对应元素中差值最大的1个,即

Dij=max|y(i+k)-y(j+k)|。

(8)

(9)

(Ⅳ)将维数d加1,重复(Ⅰ)~(Ⅲ)步,计算得到Bd+1(r),序列的理论样本熵为:

(10)

1.3 预测与评价方法

1.3.1 预测方法

本文采用支持向量回归(support vector regression,SVR)、极限学习机(extreme learning machine,ELM)、长短期记忆网络(long short-term memory,LSTM)和多层感知机(multi-layer perceptron,MLP)机器学习模型,4种模型包含了基于支持向量机的回归模型、单层和多层神经网络以及深度循环神经网络模型,在机器学习领域具有一定的代表性,在预测系统、图像处理等多个领域得到了广泛的应用[21]。

其中SVR是基于支持向量机的回归模型,其原理是将非线性的问题转化为线性问题,通过核函数将数据映射到高维特征空间,从而使数据在特征空间中线性可分,然后,在特征空间中寻找最优的超平面,使得距离该超平面最近的样本点到该超平面的距离最大化来实现回归[2];ELM是一种单隐层前馈神经网络模型,其主要思想是随机初始化输入层与隐层之间的权重和偏置,然后将训练数据输入到网络中,通过线性学习算法快速地计算隐层输出权值矩阵和输出层权重。隐层的权重和偏置是随机初始化的,因此不需要进行迭代学习,可以快速地得到模型的参数;LSTM是一种特殊的循环神经网络,其核心是通过引入门控机制,实现记忆和遗忘的功能,控制信息的流动和保存,有效地捕获和记忆长期依赖关系。在训练过程中,使用反向传播算法计算误差,并更新模型参数[11];MLP是一种基于反向传播算法的多层前向神经网络。其核心是通过多个神经元的嵌套,形成多个隐层,实现非线性映射。在训练过程中,反向传播算法可以计算每个神经元的误差,并将误差反向传播到前面的神经元中,从而调整每个神经元的权重和偏置值,能够处理更复杂的非线性关系[22]。

1.3.2 评价准则

为了评价模型的预测能力,本文采用常用的4种评价指标:平均绝对误差(mean absolute error,MAE),均方根误差(root mean square error,RMSE),平均绝对百分比误差(mean absolute percentage error,MAPE)和决定系数(R-squared)以综合评判模型的预测效果。相关计算公式如下:

(11)

(12)

(13)

(14)

2 模型构建

本文考虑新闻数据对碳价格的影响,设计了新闻影响力衰减的时间序列计算方法,提出了融合新闻影响力衰减的碳价格多元分解集成预测模型,框架如图1所示。具体步骤如下:

图1 预测框架图

第1步:数据采集和预处理。获取湖北碳价格和新闻文本数据,通过统计新闻文本关键词的词频以量化新闻影响力,基于指数衰减方程计算得到新闻影响力衰减时间序列。

第2步:时间序列分解。运用噪声辅助多元经验模态分解方法NAMEMD对碳价格和新闻序列同时进行分解,得到分解结果。

第3步:样本数据集重构。由于分解所得序列具有不同时间尺度,基于样本熵理论重构各序列分解结果,得到碳价格和新闻的高频、低频和趋势项。

第4步:碳价格预测。将碳价格和新闻的高频、低频和趋势项作为SVR、ELM、LSTM和MLP预测模型的输入,对碳价格进行预测,并通过加和集成得到最终结果。

第5步:模型验证。本文提出的模型与未考虑新闻衰减的碳价格历史时间序列和未考虑多元分解的碳价格和新闻时间序列的预测结果进行对比,通过4种评价指标验证了所提模型的有效性。

3 实证分析

3.1 数据来源

全国八大碳排放权交易试点市场的交易情况如表1所示,截至2023年2月17日,8大碳市场开市至今累计成交总量300 438 084吨。湖北碳市场成交量占比29.54%,湖北作为成交量最大的试点市场,市场交易机制成熟,交易量和成交额都占据了较大份额,市场化程度高。因此,本文通过湖北碳排放权交易中心(http://www.hbets.cn),选取2014年4月2日至2022年10月12日的湖北碳交易现货日度收盘价1 812个数据进行研究分析,训练集和测试集的划分比例为8∶2。

表1 全国碳交易市场现货交易情况

碳交易新闻文本数据来源于中国碳排放交易专门网站(http://www.tanpaifang.com),该网站的碳交易新闻文章主要来源:新华网、中国证券报、第一财经和中国能源报等,日期范围与碳价格数据的日期范围相同。

3.2 数据预处理

本文的新闻文本数据预测处理主要包含词频统计和指数衰减2个部分,其中,词频统计方法通过对关键词进行数量统计来实现分析,具体步骤如下:

第1步:数据检索。从碳排放交易专门网站获取碳交易新闻文本信息。

第2步:文本数据预处理。对获取的新闻正文文本内容进行预处理,主要包括数据清洗、分词、停用词过滤、标记化。

第3步:关键词提取和词频统计。使用中科院NLPIR中文分词系统对新闻文本进行关键词提取,选出与碳交易相关的词频前5的关键词:碳交易、碳市场、碳排放、减排、碳配额。统计新闻文本中含有这5个关键词的词频以量化新闻影响力,得到新闻文本特征。

第4步:数据可视化。新闻关键词通过创建词云来可视化数据,词云图如图2所示,该词云根据术语频率显示最重要的单词和短语,直观地呈现了主题信息。

图2 词云图

在指数衰减处理部分,本文对于当天没有新闻数据的词频,记为0;对于当天出现多条新闻的情况,计算其词频平均值以量化新闻影响力。新闻影响力以指数函数的形式随着时间推移逐渐减弱,经过本文设计的新闻影响力衰减方程计算后,得到每日连续的新闻影响力衰减时间序列,该时间序列的每日数据反映了当日以及前7天的新闻数据共同产生的影响。计算新闻影响力衰减时间序列,提供了更加全面的视角来捕捉新闻对碳价格的影响,有利于准确地预测未来的碳价格走势。

3.3 数据映射

数据映射是构建数据集的基础,将新闻影响力衰减数据与湖北碳价格数据的日期进行对应,并进行归一化处理。本文构建了2014年4月2日至2022年10月12日的碳价格时间序列和新闻影响力时间序列的数据样本,如图3所示,新闻影响力衰减时间序列与碳价格序列的走势呈现更明显的关联。为衡量碳价格和新闻的相互依赖程度,计算两者的互信息,互信息值越大,说明碳价格和新闻的关系越密切[23]。原始的新闻时间序列与碳价格序列的互信息值为0.564,增加指数衰减后的互信息值为0.832,表明指数衰减时间序列与碳价格时间序列之间的相关性较大,指数衰减影响力计算方法的有效性和可行性。

图3 碳价格、新闻影响力和新闻影响力衰减时间序列

3.4 分解集成预测

由于碳价格和新闻数据在时间序列上呈现出非线性和高噪声等特征,为了更准确地预测碳价格,并分析碳价格波动特征的内在模式,首先,采用NAMEMD方法同时分解湖北碳价格与新闻影响力衰减时间序列,分别得到碳价格和新闻的10个IMF分量和1个Res(t)残差。

其次,计算碳价格和新闻每个分量的样本熵值,结果如图4所示,由于分量越多,累计误差越大,可能导致整体预测精度降低,因此将IMF进行重构,可以提高建模速度和预测精度[24]。结果显示碳价格和新闻的前6个IMF分量的样本熵值都超过其他IMF的值,波动剧烈且没有明显的趋势,将IMF1~6重构为高频项。相比之下,最后两个分量的样本熵值远远低于其他分量,具有明显的趋势,较好刻画了原始序列的波动,重构为趋势项(IMF10~11),其余部分重构得到低频项(IMF7~9),碳价格和新闻分量重构序列如图5所示,重构后的IMF变化趋势更明显,便于进一步提取各IMF的波动特征,更好地训练预测模型[25]。

图4 分量样本熵值折线图

图5 碳价格和新闻分量重构序列图

最后,运用SVR、ELM、LSTM和MLP预测模型,分别对碳价格单变量时间序列、融合新闻影响力的碳价格时间序列、融合新闻影响力衰减的碳价格时间序列和融合新闻影响力衰减的碳价格多元分解重构时间序列4组方案进行预测,并通过线性集成得到最终预测结果。为了评价模型的预测能力,本文采用了常用的4种评价指标,包括平均绝对误差(MAE),均方根误差(RMSE),平均绝对百分比误差(MAPE)和决定系数(R2)。

3.5 实验结果与分析

本文设计了4组实验方案以充分验证融合新闻影响力衰减的碳价格多元分解集成预测方法的可行性与有效性,获得的预测误差结果对比如表2所示,黑色加粗为最优结果,将MAPE和R2评判标准以柱状图展示,如图6和图7所示。

表2 不同方案的预测误差结果对比

图6 评判标准MAPE柱状图

图7 评判标准R2柱状图

(Ⅰ)单模型对比实验

为验证本文所用的MLP模型相较于其他模型在预测性能方面的优越性,本文将MLP与SVR、ELM和LSTM模型的预测效果进行对比。通过对比表2中的第1组实验方案结果,可以看出MLP模型在预测误差值MAE和MAPE方面表现最佳,分别为1.106和2.85%,这是由于MLP模型具有较强的非线性建模能力,可以通过多层神经元的组合实现非常复杂的非线性映射关系,从而更好地拟合真实数据的分布。相比之下,SVR是基于核函数实现的非线性回归算法,在处理复杂数据时可能无法有效地捕捉其非线性关系;ELM预测性能高度依赖于随机初始化的权重,可能在不同的初始化下产生不同的结果,导致模型的稳定性较差;而LSTM则在处理长期依赖关系序列具有相关优势,但引入了许多门控单元和记忆单元,增加了计算量和训练时间。

(Ⅱ)融合新闻数据对比实验

为验证本文提出的融合新闻数据对碳价格预测相较于只考虑碳价格历史数据的优越性,本文考虑融合碳交易新闻的非结构化数据对碳价格的影响,通过引入新闻文本进行特征提取,统计与碳交易相关的词频前5的关键词词频以量化新闻影响力,挖掘其对碳交易价格预测的信息增量价值。第2组实验方案中,与只考虑碳价格的预测模型进行对比,融合了新闻文本数据的碳价格预测误差指标值均小于仅使用碳价格的预测误差,其中ELM和MLP模型的RMSE值分别降低了17.65%和8.53%,实证分析表明,本文所提出的融合新闻影响力的碳价格预测模型有利于提升碳价格的预测准确性,为碳市场的分析和决策提供了有效的参考价值。

(Ⅲ)新闻影响力衰减策略对比实验

为验证新闻影响力指数衰减策略相较于未考虑衰减处理的优越性,本文基于词频统计和指数衰减提出了1种碳新闻影响力指数衰减序列的量化方法,通过将新闻影响力进行指数衰减处理,发现指数衰减后的新闻影响力与碳价格数据呈现更高的相关性,其互信息值由0.564提升至0.832,这表明指数衰减策略对于提升新闻影响力与碳价格之间的关联性具有积极的影响。在实验中,将第2组和第3组实验方案进行对比,其中第3组实验方案考虑了指数衰减的新闻影响力时间序列,而第2组则未进行指数衰减处理。实验结果显示:在所有指标上,第3组方案增加了指数衰减的预测精度均优于第2组方案模型,证实了指数衰减策略不仅提高了新闻影响力与碳价格之间的相关性,还验证了融合新闻影响力指数衰减时间序列对提升碳价格预测精度的有效性。

(Ⅳ)多元分解集成策略对比实验

为验证“多元分解-集成”预测方法的有效性,本文将经过多元分解处理的融合新闻影响力衰减的碳价格预测模型与未进行分解的模型预测效果进行对比。经过NAMEMD分解处理后的预测模型表现更好,第4组实验的模型预测误差均小于第3组未考虑分解的模型,且R2有所提升,其中融合新闻影响力衰减的碳价格NAMEMD-MLP模型的预测性能最优。碳价格和新闻多元数据,其内在的规律比较复杂,采用NAMEMD分解方法能够自适应地将非平稳、非线性的多元数据进行平稳化处理,保证了不同通道分量的个数和频率尺度上都匹配,实验结果表明“多元分解-集成”策略可以提高预测精度和模型拟合度。

3.6 DM检验

为了进一步判断所提模型在预测性能是否有显著性差异,采用DM统计量[2]进行检验。DM检验的原假设是预测模型在预测性能上无显著差别,DM统计量的定义为:

(15)

本文采用第4组方案和第1组方案的不同模型进行单侧DM检验,来判断第4组方案融合新闻影响力衰减的碳价格多元分解集成预测模型是否比第1组方案碳价格单变量预测模型具有显著优越性。DM检验结果见表3,第4组方案在1%或10%的显著性水平下均拒绝原假设,即与第1组方案碳价格单变量预测显著不同并优于第1组方案,进一步证明了本文所提融合新闻影响力衰减的碳价格多元分解集成预测模型具有显著优势。

表3 DM检验结果

4 结论与展望

(1)构建了1种融合新闻影响力衰减的碳价格多元分解集成预测模型,不仅克服了缺乏对其他影响因素的考虑,导致预测结果存在一定滞后性的问题,还规避了单变量分解方法无法捕捉多变量联合影响的固有缺陷。相较于未考虑新闻影响力衰减以及多元分解集成的模型,融合新闻影响力衰减的碳价格多元分解集成预测模型有效地提高了碳价格的预测准确性,表现出优异且稳定的预测性能。

(2)新闻数据主题提供了与碳价格密切相关的信息,对碳价格预测精度提升有重要影响。经过指数衰减的新闻影响力数据与碳价格数据的相关性更高,新闻指数衰减方法提供了1种量化新闻影响力的重要手段。指数衰减考虑了不同时间点的新闻对碳价格的影响力递减情况,更准确地反映了新闻对碳价格的短期影响,为碳价格预测提供更多有效的信息,提高了对碳交易价格变动的解释性和碳价格的预测精度。

(3)基于NAMEMD分解集成策略能够自适应地将非平稳、非线性的多元数据进行平稳化处理,这对于处理复杂性的碳价格和新闻数据具有重要意义。NAMEMD分解得到的每个分量具有不同的时间尺度和振幅特征,充分提取各分量特征将数据进行重构,从而减少了累计预测误差,对整体预测精度有明显提升。

本文提出的融合新闻影响力衰减的碳价格多元分解集成预测研究模型,能有效提高预测精度,为碳价格预测提供新思路。另外,本研究未来还可以尝试在模型中加入更多与碳价格相关的政策和经济等影响因素,以进一步提升模型的预测性能。并且进一步探索本文方法是否能应用于其他领域的数据预测,以提高方法的通用性。

猜你喜欢
词频影响力价格
基于词频分析法的社区公园归属感营建要素研究
天才影响力
黄艳:最深远的影响力
价格
价格
价格
词频,一部隐秘的历史
3.15消协三十年十大影响力事件
传媒不可估量的影响力
云存储中支持词频和用户喜好的密文模糊检索