一种基于引力模型的线性预测算法

2021-06-16 09:35单曙兵戴炳荣
电子技术与软件工程 2021年7期
关键词:引力方差准确性

单曙兵 戴炳荣

(1.中汇信息技术(上海)有限公司 上海市 201203 2.上海计算机软件技术开发中心 上海市 201112)

1 引言

线性预测是一种常用的预测方法,它主要考虑自变量和因变量之间的线性变化,由于其可解释性较强,对许多预测问题有着较好的准确性[1]。王茜基于线性预测的原理提出了连续四点线性预测模型的频率估计算法,以及基于单位约束最小二乘的任意时间间隔的线性预测模型的频率估计算法,通过实验分析,提出的算法拥有更高的预测精度[2]。田金鹏等提出了一种基于自适应线性预测的卡尔曼滤波恢复算法,基于前后窗信号之间的相关性并利用自适应线性预测方法,建立前后窗口信号的状态转移方程,与修正后的观测方程共同构成系统状态空间模型,算法拥有更高的精确度和抗噪性能[3]。樊学平等基于趋势性和随机性的解耦极值应力时间序列数据,通过动态耦合性线性模型的概率递推,实现桥梁极值应力的动态预测[4]。陈治国等采用不同长度的数据样本建立预测模型,分析数据样本长度和预测阶数对预测结果的影响,进而引入基于顺序迭代法的数据调整机制,提高模型系数计算的准确性,并通过正交函数和最小均方误差求解线性预测系数[5]。段华琼等提出多个不同尺度的线性模型来组合预测网络数据流量[6]。上述线性模型虽然解决一定场景的预测问题,但是仍然面临两个挑战:一是线性模型的各个影响因素在预测中,没有考虑到因素间相互作用的问题,而是假设各个因素是独立的;二是线性模型的预测准确性有待进一步提升。但是线性模型本身存在可解释性强,便于建模的优势,因此针对上述挑战,本文提出一种基于引力模型的线性预测算法。

引力模型可以表达因素间的相互关系,并且适用的场景更为广泛。何蓉蓉基于历史旅游客流量和影响因素,通过引力模型对未来的旅游客流量进行了预测[7]。Sayed 等通过引力模型预测了孟加拉国首都达卡市的交通用堵情况[8]。Kristin 等开发了引力模型,以根据社会经济因素预测全球4435 个定居点之间2042年的城市间航空乘客需求[9]。Ramos 等分析过去1960年至2010年之间27 个国家/地区的移民流动,并使用引力模型预测欧盟和欧盟邻国双边移民关系的未来趋势[10]。因此,基于引力模型优势,本文提出了一种基于引力模型的线性预测算法GP,用来预测平台流量。本文第2 节介绍GP 算法,第三节对GP 算法预测的结果与其他常见线性模型进行对比分析。最后是全文的总结。

表1:常见的3 个预测模型

表2:实验中的训练集和测试集比例

表 3:GP 和其它3 个线性模型的方差

2 基于引力模型的线性预测算法

由于引力模型适合解决各个因素之间有影响关系的预测问题,具有良好的扩展性,只需要适当调整参数和变量即可[11][12]。 因此可以修改引力模型,例如贸易引力模型,用于预测平台流量。

公式(1)是用于预测的贸易引力模型两个区域之间的进口量[13]。参数在公式(1)中的是:

· y:进口数量,

· x:可能影响贸易的影响因素,例如GDP,

· Z:特殊事件因素,例如交易数量

两个地区的天数或资费天数增加,

· d:两个区域之间的距离,

· a 和b:系数。

平台网络流量受到许多因素影响,以及一段时间内的平台流量时间的差异中可以得出在两个时间点。如果将不同的时间点视为时间上的不同“位置”,以及平台流量被视为一种流的变化,上述差异反映不同位置之间的流量变化。因此,可以通过引力模型确定平台网络流量,即等式(1)进行适当的修改。

公式(2)中表示了网络流量引力模型关联的参数如下:

· E:平台流量,

· x:影响平台流量的影响因素,例如平均会话时间,

· Z:特殊事件因素,例如平台推出活动天数等

· n:因素数

图1:GP 与基准模型准确度对比

图2:GP 模型与其它模型的可扩展性验证

· m:特殊事件的数量,

· a,b,c:系数

· d:两个时间点之间的持续时间(小时)

公式(2)表示的流量会随影响因素而变化,并且所占比例这些变化可能有所不同。 如果E 的分散随着增加(减少)逐渐增加(减少),则收集的数据是异方差的[14]。 为了检测收集到的异方差数据集,本文提取了一个子集,其中包括8月31 天的744 小时的平均会话时间和流量。为便于观察,本文对744 小时进行了排序平均会话时间和流量数据将相应地重新排序。 随着平均会话时间的提升从平均22 分钟到30 分钟,流量的分散度逐渐增加。当平均会话时间上升时(从33 分钟或更多时间),流量分散迅速减少。 这充分说明了收集的数据是异方差的,而异方差数据会导致预测准确性下降。针对这个问题,对数变换是降低异方差的有效手段之一[15]。 所以,为了减轻数据集中的异方差效应,本文在等式(2)的两边取对数,获得对数平台流量引力模型如公式(3)所示,称为GP。公式(3)中的参数含义与公式(2)中的相同,并且影响因素是退出率、点击密度、平均会话时间,假设没有发生特殊事件,替代将这些相关的影响因素输入公式(3),本文将得到公式(4)。在公式(4)中,xt,xh和xs为退出率、点击密度、平均会话时间。 是一个常数。

3 实验结果

本文收集了一年的平台访问流量数据。对于平台来说,退出率、点击密度、平均会话时间是影响平台流量的主要因素,因为它会影响平台的流量。因此,本文获得了同一时间段内的退出率、点击密度、平均会话。为了解决这些数据集中的不同测量单位,请进行归一化被使用。然后将预处理的数据集分为训练和测试集。

为了评估预测结果的质量,本文利用等式(5)所示的MAPE(平均绝对百分比误差)[16],其中At 为实际值,Ft 为预测值。

在计算实验中,本文采用3 种常用的预测模型(如表1 所示)作为基准。这些模型的某些应用可以在文献17 中找到。它们代表常见的线性预测的模型,包括普通最小二乘回归,贝叶斯岭回归,随机梯度下降回归[17]。

使用提出的GP 模型和表1 的3 个模型预测平台访问流量,现已有1年的平台流量数据,并得知因素退出率、点击密度、平均会话时间影响平台的访问流量,并将上述数据划分为如表2 所示的训练集和测试集进行实验,在实验中,训练集从90%逐步减少到60%,测试集从10%逐渐增加到40%。其预测结果如图1 所示。

从图2 中可以看出,随着训练集的减少,各个模型的预测精度逐渐降低。GP 模型的预测精度在4 个实验中的3 个实验都是最好的。虽然在训练集90%时预测精度并非第一,但与精度第二名OLSR相差并不很多,仅为不到0.3%的差异。并且随着训练集的减少,其预测精度下降最少。SGDR 与BRR 的准确性接近,并且都略逊于OLSR。

此外,本文还使用方差来评估所有模型的预测结果,这可以说明预测结果的稳定性。表3 显示了GP 与其它3 个基准的预测结果的平均方差。GP 在方差方面表现最佳,这表明GP 不仅具有较好的精确性,还具有很好的稳定性。

4 分析与比较

本文第三节使用了MAPE 和方差来评价GP 和其它三种模型,从而得知GP 在预测精度和稳定性方面表现最好。但是否可以推广,泛化性是评价这种能力的指标。因此本节使用另一个平台的历史流量数据以及相同的指标即退出率、点击密度、平均会话时间来评价GP 模型的泛化性。

从图2 中可以看出,随着训练集的减少,各个模型的预测精确度逐渐降低。但是GP 模型较其它3 个线性模型依旧表现很好,当训练集逐渐减少后,尽管预测精度也是逐渐减低状态,但却是各个实验中预测效果最好的。这说明GP 模型更具有更好的准确性。

5 结论

本文针对传统线性模型的缺点即影响因素必须互相独立,无法考虑因素间的互相影响,而引入了一种引力模型,并通过修改模型因子来实现线性引力模型的预测。提出的全新线性引力模型GP 可以将因素之间的互相影响关系代入到预测模型中,从而提升预测的准确性。从实验结果来看,GP 模型在准确性、稳定性和泛化性方面都优于其它常见的线性模型。在未来的研究中,为了充分验证GP 模型在上述准确性、稳定性和泛化性方面的优势,会引入更多的影响因子,并增加更多种类的平台的数据量。

猜你喜欢
引力方差准确性
方差怎么算
概率与统计(2)——离散型随机变量的期望与方差
计算方差用哪个公式
方差生活秀
引力
感受引力
美剧翻译中的“神翻译”:准确性和趣味性的平衡
论股票价格准确性的社会效益
超声引导在肾组织活检中的准确性和安全性分析