基于大数据驱动的媒体风险感知模型

2022-07-14 09:50黄取治
关键词:互信息延迟时间历史数据

陈 耿,黄取治

(福建师范大学协和学院,福建 福州 350117)

随着信息技术、通信技术、自媒体技术的不断发展,当前人们在工作、生活中存在多种类型的风险,如环境风险等[1-3].如何帮助人们提高对风险的认识,可以从媒体中挖掘风险知识,因此媒体风险感知模型的设计具有十分重要的理论意义和实际应用价值[4-5].

针对媒体风险感知模型设计问题,国内外一些学者已取得了一批媒体风险感知模型[6-8].最初学者们通过对媒体风险感知进行分析,根据分析结果和经验确定媒体风险的等级,该方法的媒体风险感知时间相当长,媒体风险感知成本高,而且其最大的缺陷是媒体风险感知结果可信度低,无法客观描述媒体风险的等级[9].随后出现了基于线性回归的媒体风险感知模型,该模型的工作过程十分简单,媒体风险感知速度快,但是媒体风险感知误差大.与此同时,还出现了基于BP神经网络的风险评估模型研究,其假设风险是一种线性变化规律[10],而实际上媒体风险与多种因素相关,不仅存在着线性变化规律,而且同时存在着非线性变化规律,因此对于非线性的媒体风险数据,其媒体风险感知精度低[11-12].有学者采用最小二乘支持向量机进行风险评估[13]和采用粒子群算法结合神经网络构建物流财务风险评估模型[14],还有学者提出利用深度学习方法和粗糙集技术构建风险检测系统[15],利用深度学习实现风险内容的弱监督[16]和基于模糊推理系统和神经网络相结合的数据访问风险监测系统[17].上述方法可以对复杂问题进行建模,而且非线性拟合能力强,但是它们同样存在一定的不足,如在对风险感知结果不稳定,易出现“过拟合”或者“欠学习”的风险感知结果.

为了更好地了解媒体风险的变化规律,提高媒体风险感知精度,本文在上述模型的基础上,提出一种新的媒体风险感知模型.在预处理采集数据后,利用最小二乘支持向量机的特性用于克服待测参数和数据间的非线性,为使参数对于不同的训练样本具有自调整功能,引入粒子群算法对参数进行寻优,从而优化对非线性的媒体风险数据的处理.最后,采用具体实例与传统模型进行对比测试,验证了本文设计的媒体风险感知模型的有效性和优越性.

1 大数据驱动的媒体风险感知模型具体设计

1.1 媒体风险数据的预处理

媒体风险受到多种因素影响,存在一定的不确定性和非线性,即混沌性.如何高精度识别媒体风险数据序列的混沌性,对于改善媒体风险感知结果具有重要的意义.设媒体风险的历史数据序列为:{xi,i=1,2,...,k},那么可以通过延迟时间(τ)重构为m维的历史数据序列,该m维历史数据序列与原历史数据序列具有相同的变化规律,具体如下:

(1)

式(1)中,N表示重构后的相点数量.

那么相空间中的相点可以表示为:

X(j)=[x(j),x(j+τ),...,x(j+(m-1)τ],j=1,2,...,N,

(2)

对式(1)进行分析可知,能否正确描述媒体风险的变化特性,τ和m选取十分关键.本文采用互信息法选取τ,Cao法[18]选取m.

(1) 互信息法确定延迟时间τ.

对于两个时间序列X和Y,它们信息熵分别为:

(3)

(4)

式(3)-(4)中,P(xi)表示事件xi发生的概率,P(yi)表示事件yi发生的概率.

两个时间序列的联合信息熵为:

(5)

式(5)中,Px,y(xi,yj)表示件xi,yi同时表示的概率.

互信息函数I(X,Y)定义如下:

I(X,Y)=H(X)+H(Y)-H(X|Y),

(6)

当前I(X,Y)出现第一次最小值,此时的τ为时间序列的最优τ.

(2)Cao法确定嵌入维m.

相点Xi和Xj欧氏距离的无穷范数定义如下:

(7)

定义:

(8)

(9)

(10)

随着嵌入维数m的增加,E1(m)会逐渐增加,达到一定的程度后,E1(m)达到饱和状态,此时的m即为时间序列的最优m.

1.2 大数据驱动技术

1.2.1 最小二乘支持向量机

由于媒体风险感知本质是一个分类问题,对于大规模媒体风险数据,支持向量机的训练复杂度比较高,媒体风险感知训练时间与训练样本数量呈指数变化关系,而最小二乘支持向量机简化了支持向量机的训练过程,运行效率大幅度提高,因此通过引入最小二乘支持向量机设计媒体风险感知分类器.设共有k个样本数据,它们组合在一起,产生训练集{(x1,y1),(x2,y2),...,(xk,yk)},根据最小二乘支持向量机的工作原理可知,存在一个最优分类的超平面,该最优分类的超平面应该满足如下:

(11)

式(11)中,ω表示法向量,T表示转置运算,β表示偏置量.

那么可以得到最小二乘支持向量机的分类决策形式为:

f(xi)=sgn(ωTxi+β),

(12)

要对式(12)的分类决策问题进行求解,需要对优化函数φmin(ω,ξi)进行相应的求解,φmin(ω,ξi)具体定义如下:

(13)

式(13)中,γ表示正则化参数,φ(xi)表示非线性映射函数,其作用是将样本空间X非线性映射到特征空间Y,具体原理如图1所示.

图1 样本空间的非线性映射原理Fig.1 Nonlinear mapping principle of sample space

引入Lagrange乘子αi设计Lagrange方程:

(14)

式(14)的最优化条件具体如下:

(15)

(16)

(17)

(18)

消除ξi和ω,建立如下形式的方程:

(19)

式(19)中,P=yiyjφT(xi)φT(xj)yiyjK(xi,xj),j=1,2,...,k,

yT=[y1,y2,...,yk],Ik=[1,1,...,1]T,α=[α1,α2,...,αk]T,

K(xi,xj)表示核函数:

(20)

式(20)中,σ表示核宽度.

最后得到媒体风险感知分类决策函数为:

(21)

1.2.2 粒子群算法

在最小二乘支持向量机的媒体风险感知过程中,参数γ和σ对媒体风险感知效果十分关键,采用粒子群算法确定参数γ和σ最优值.粒子群算法在参数γ和σ寻优过程中,采用如下方式更新其不同时刻的状态,具体如下:

(22)

(23)

1.3 大数据驱动的媒体风险感知步骤

(1) 采集媒体风险的历史数据,本文将媒体风险感知问题当作一种时间序列分析问题,因此只采集媒体风险等级值,得到一个一维时间序列数据.

(2) 本文采用互信息法选取延迟时间,Cao法选取嵌入维.

(3) 采用选取延迟时间和嵌入维对媒体风险的历史数据进行相空间重构,得到多维的媒体风险的历史数据.

(4) 采用粒子群确定最小二乘支持向量机的参数γ和σ最优值.

(5) 最小二乘支持向量机根据参数γ和σ最优值对媒体风险的历史数据进行训练,建立最优的媒体风险感知模型.

2 媒体风险感知模型的性能测评与分析

2.1 数据来源

为了分析大数据驱动的媒体风险感知效果,选择一些媒体风险数据进行分析.本文运用网页信息抓取工具 Gooseeker 通过在线媒体网络收集相关风险事件发生时的媒体风险感知原始数据,其中包含媒体使用时间、媒体使用频率、媒体使用动机、风险事件知识获取(股票市场、债券市场、货币市场、外汇市场等)、媒体信任度,均采用5分量表测量法进行测量:1=几乎没有;2=较少;3=一般;4=经常;5=总是.以某一项的数据为例,如图2所示.

图2 媒体风险感知实验的测试数据Fig.2 Test data of media risk perception experiment

一个样本中包含30个变量,得到的一维时间序列数据类似于{2,5,3....,4},总样本数据量巨大,需要对数据进行预处理.

2.2 确定媒体风险数据的延迟时间和嵌入维

根据第1节的计算过程,分别采用互信息法和Cao法对图2媒体风险感知实验数据进行分析,对于样本数据中的某两个时间序列,信息熵分别为0.02和0.03,联合信息熵为-0.012,对应得到的互信息函数为0.062,计算全部样本中的互信息函数,选定最小值,确定延迟时间结果如图3所示.在此基础上,计算欧氏距离的无穷范数为0.7,则嵌入维结果如图4所示.从图3和图4可以看出,该媒体风险感知实验数据的延迟时间和嵌入维最优值分别为7和7.采用延迟时间=7和嵌入维=7对图2媒体风险感知实验数据进行重构,将重构数据用于最小二乘支持向量机建模.

图3 互信息法确定媒体风险数据的延迟时间Fig.3 Mutual information method to determine the delay time of media risk data

图4 Cao法确定媒体风险数据的嵌入维Fig.4 Cao method to determine the embedding dimension of media risk data

经过粒子群算法确定参数γ和σ最优值分别为0.58和0.26,通过最小二乘支持向量机进行迭代计算,过程伪代码如图5所示.

图5 迭代计算伪代码Fig. 5 Iterative computation pseudo code

2.3 媒体风险感知敏锐性

通过对媒体风险感知数据进行处理后,对数据进行简单算术平均合成,得到媒体风险感知水平如图6所示.分析图6可知,大多数情况下,媒体风险感知均值约为0.424,并呈上下波动.在A点(2008年全球金融危机)、B点(2012年欧债危机)、C点(2015-2017年股灾债灾)、D点(2018年中美贸易战)、E点(2020年疫情暴发),严重增加了金融风险,这期间媒体风险感知水平均超过了0.68,远超均值,可以明显地感知到风险事件的发生.另外,从感知水平数值波动的趋势来看,在风险事件发生前,媒体风险感知就已呈现出上升的趋势.

图6 媒体风险感知走势图Fig.6 Trend chart of media risk perception

2.4 媒体风险感知精度

为了使大数据驱动的媒体风险感知结果具有可比性,选择传统媒体风险感知模型进行对比测试,其为BP神经网络的媒体风险感知模型;最小二乘支持向量机的媒体风险感知模型(数据没有进行预处理),共进行5次实验,不同模型的媒体风险感知精度如图7所示.从图7可以看出,每一次实验,本文方法的媒体风险感知精度要高于传统模型,有效减少了媒体风险感知误差,获得了更理想的媒体风险感知结果.这是因为本文方法通过互信息法和Cao法对初始数据进行了预处理,并利用最小二乘支持向量机进行了数据的分类,简化了数据的运算量,使数据从高维度变为低纬度,便于准确地提取数据特征.

图7 与传统媒体风险感知模型的精度对比Fig.7 Accuracy comparison with the traditional media risk perception model

2.5 本文模型的通用性测试

为了测试大数据驱动的媒体风险感知模型的通用性,选择20种不同类型媒体作为测试对象,统计它们的媒体风险感知精度,结果如表1所示.从表1可以看出,对于这20种不同类型媒体数据,

表1 本文模型的不同类型媒体风险感知精度Tab.1 Risk perception accuracy of different types of media in this paper’s model

本文方法的媒体风险感知精度超过95%,精度可以满足实际应用的要求,表明本文媒体风险感知模型具有较好的通用性.

3 结束语

如何从媒体历史数据中挖掘有用信息是当前的研究热点,为了降低媒体风险感知误差,把握媒体风险变化规律,设计了基于大数据驱动的媒体风险感知模型,该模型采用混沌理论对媒体历史数据进行相空间重构,便于挖掘数据隐藏的规律,然后引入粒子群算法优化最小二乘支持向量机建立媒体风险感知模型,具体测试结果表明,本文模型的媒体风险感知精度高,具有十分广泛的应用价值.

猜你喜欢
互信息延迟时间历史数据
基于设备PF性能曲线和设备历史数据实现CBM的一个应用模型探讨
二氧化碳对乙烷燃烧着火延迟时间的影响
等离子体对CH4-空气着火特性的影响因素分析
从数据分析的角度浅谈供水企业漏损诊断
基于Hadoop技术实现银行历史数据线上化研究
用好细节材料 提高课堂实效
基于改进互信息和邻接熵的微博新词发现方法
DRAM中一种延迟时间稳定的时钟树驱动电路
基于互信息的图像分割算法研究与设计
基于互信息的贝叶斯网络结构学习