基于深度学习长短期记忆神经网络的有色金属期货市场预测研究

2021-09-08 07:34虹,李旭,潘
南京理工大学学报 2021年3期
关键词:有色金属期货神经网络

沈 虹,李 旭,潘 琪

(扬州大学 商学院,江苏 扬州 225127)

作为有色金属的生产和消费大国,中国有色金属行业在全球定价权方面的影响力有了显著提升,“上海规则”和“上海价格”在行业内获得了充分认可。同时,中国经济的持续增长,为中国金属期货的发展提供了有力保证。近年来,期货市场交易持续活跃,规模稳步扩大,市场功能及其辐射影响力显著增强。然而,期货市场暴涨暴跌现象仍时有发生。不论“国储铜”事件还是“原油宝”事件,都使市场及投资者遭受到严重损害,因此研究期货市场的价格波动以及风险防范迫在眉睫。

信息技术快速发展的过程中,爆发式增长的金融数据是进行全球金融监管的重要资源。收集金融数据,结合人工智能、统计分析、数据挖掘等手段及算法判断和识别金融变量的变化趋势是当今量化投资金融领域的研究热点之一。

作为人工智能技术的代表,通过机器学习挖掘变量之间的非线性关系可以有效提高金融预测的效果。Dhar等[1]利用经典多层感知器(Multi-layer perceptron,MLP)模型预测印度证券交易所股指收盘价。Dunis等[2]对乙醇的压榨价差套利策略采用MLP神经网络、高阶神经网络(Higher order neural network,HONN)和遗传规划算法(Genetic programming algorithm,GPA)进行了对比研究。Gu等[3]将机器学习算法应用到美国市场上,实验表明机器学习比传统线性回归模型更加有效。李斌等[4]通过对机器学习的系统性运用,发现机器学习算法能有效识别异象因子,从而提升基本面量化投资中的股票收益预测效果。

深度学习能够提取大量数据中的隐藏信息,因此作为机器学习领域中1个新的研究方向开始广泛应用于量化投资预测。Di Persio等[5]使用MLP、卷积神经网络(Convolutional neural network,CNN)和长短期记忆(Long-short term memory,LSTM)神经网络对标准普尔500指针(Standard & Poor’s 500 index,S&P 500)第2天收盘价涨跌进行预测,发现基于CNN的预测误差最小。Bao等[6]将小波变换与LSTM模型结合,首次基于股票的深层次特征对股价进行消除噪声的分解,得到良好的预测效果。文宇[7]通过构建CNN-LSTM网络对金融二级市场价格进行分析,无论在短期预测中还是在长期预测中都取得了显著的预测效果。邓凤欣等[8]使用LSTM神经网络模型对以友邦保险、长和、微软以及亚马逊为研究对象的美港市场进行预测,结果证实LSTM模型在个股的价格趋势预测中的精确程度和稳定程度都很高。宋刚等[9]使用基于自适应粒子群优化(Particle swarm optimization,PSO)的学习策略对LSTM模型的关键参数进行寻优,使股票数据特征与网络拓扑结构相匹配,不仅提高了股价预测精度还具有普适性。

上述研究尝试将机器学习及深度学习方法应用于价格预测,其适用性得到了一定的验证。其中,LSTM神经网络在挖掘时间序列长期依赖关系中极具优势。有色金属期货市场作为全球重要的金融子市场,该市场的价格波动会对现货市场、实体经济造成风险溢出,因此针对期货市场的价格监测变得尤为重要。然而,针对该市场的金融预测,现有研究主要通过传统时间序列模型来实现,没有考虑到因变量与自变量之间的动态非线性变化。因此,本文将深度学习方法引入期货市场,利用非线性模型对其进行深度数据挖掘,从中获取变量间的非线性关系,提高预测能力。本文采用深度学习中的LSTM网络模型、机器学习MLP模型与线性ARIMA模型对比,进行国内外有色金属期货价格预测研究,为有色金属期货市场的金融预测提供可参考的模型。

1 模型介绍

1.1 MLP模型

MLP模型是机器学习中具有代表性的模型之一,在股票的预测分析中应用广泛,且在回归和分类上均有较好的表现。因此,本文的机器学习模型选取了MLP模型。MLP由输入层、输出层和隐含层构成,隐含层可以解决非线性可划分的数据问题,最简单的MLP模型只含有1个隐含层,即共3层,如图1所示。

图1 含有1个隐含层的MLP模型结构图

由图1可知,MLP每层节点与网络的下一层节点之间是完全连接的。假设数据从输入层输入,其它层的节点通过将输入数据与层上节点的权重W以及阈值b组合,并通过激活函数得到该层相应的输出。MLP学习原理就是通过最速下降法,利用反向传播调整网络的权重和阈值,使网络误差达到最小。3层MLP公式为

f(x)=f(2)(b(2)+w(2)(f(1)(b(1)+w(1)x)))

(1)

式中:函数f可以是sigmod函数或者tanh函数,w(1)是输入层到第1个隐含层的权重,w(2)是隐含层到输出层的权重,b(1)是隐含层的激活阈值,b(2)是输出层的激活阈值。

1.2 RNN模型

循环神经网络模型(Recurrent neural network,RNN)是带有记忆功能的深度学习模型,图2是RNN按时间序列展开的模型。其中,主体结构A将在t时刻读取输入层的信息Xt,与上一时刻状态ht-1同时输入模型,从而得到新的自身状态ht,并输出σt。在t+1时刻,又将ht与Xt+1输入神经网络A,进而得到下一时刻的输出,如此往复构成1个循环。故而,RNN模型具有一种重复神经网络模块的链式形式,使得任意时刻的输出都受到之前数据的影响,能够做到记忆历史信息并计算当前输出,如图2所示。

图2 RNN按时间序列展开结构图

对于依靠短期记忆来预测结果的情形,RNN模型具有良好的预测效果。然而,当权重大于1时,反向传播误差将会一直放大,引起梯度爆炸;当权重小于1时,误差将会一直缩小,引起梯度消失,进而导致网络权重更新缓慢,参数难以训练达到最优值,使得RNN网络无法有效处理长期时序依赖关系,出现如同人脑一样,不能永久记忆,过快遗忘的问题。

1.3 LSTM模型

LSTM神经网络[10,11]是一种特殊的RNN模型,由于能够更好地发现长期依赖关系而被广泛应用于解决各种复杂问题。具体来说,LSTM包含3个门,遗忘门(Forget gate)、更新门(Update gate)和输出门(Output gate)。“门”是一种能够对信息的通过进行选择性控制的结构,通过sigmod函数和点乘操作实现。sigmod取值介于0~1之间,点乘决定了传送的信息量,0表示舍弃信息,1表示完全传输。LSTM利用内部记忆单元即细胞的状态保存历史信息,并利用不同的“门”动态地让网络学习适时遗忘历史信息,依据新信息更新细胞状态,进而解决了RNN中梯度消失与梯度爆炸的问题。

LSTM单元内部结构如图3所示。上一时刻的输出ht-1与这一时刻的输入xt通过LSTM结构的遗忘门控制从当前状态中移除哪些信息,更新门控制哪些信息添加到当前状态中,输出门控制当前状态中的哪些信息用作输出。3个“门”共同作用、处理信息,完成时间序列的预测ht。

图3 LSTM单元内部结构图

1.3.1 遗忘门

通过遗忘门的sigmod函数决定从细胞状态中丢弃哪些信息,公式如下

ft=σ(Wf·[ht-1,xt]+bf)

(2)

式中:ht-1是(t-1)时刻的输出;xt是t时刻本层的输入;Wf是各个变量的权重;bf是偏置项;激活函数σ是sigmod函数,形式为σ(x)=(1+e-x)-1;ft介于0~1之间,表示输出给每个细胞状态Ct-1的值,1表示完全保留,0表示完全舍弃。

1.3.2 更新门

it=σ(Wi·[ht-1,xt]+bi)

(3)

(4)

(5)

式中:it介于0~1之间;tanh即为双曲正切激励函数,输出介于-1到1之间的数值;Ct-1表示(t-1)时的细胞状态值,即从t时刻输入信息中提取出要记录的信息;Ct表示更新后的细胞状态值。

1.3.3 输出门

输出门用来决定输出的消息。通过sigmod函数确实能够得到细胞状态的输出信息量,接着将细胞状态Ct经过tanh函数的处理得到1个介于-1到1之间的值,与sigmod的输出门相乘就得到了最终的输出值。

ot=σ(Wo·[ht-1,xt]+bo)

(6)

ht=ot·tanh(Ct)

(7)

综上,通过3个控制门机制完成了1个神经元的内部处理,使得LSTM模型可以有效利用输入数据,高效地处理复杂长期时序动态依赖关系,从而适用于复杂的金融时间序列预测。

1.4 ARIMA(p,d,q)模型

金融时间序列分析是研究微观金融的核心方法之一,在资产定价、金融预测以及市场检验等方面发挥了至关重要的作用。本文选择自回归移动平均(Autoregressive integrated moving average,ARIMA)模型作为线性预测模型,进行价格预测,同时也为本文的机器学习及深度学习提供了对照模型。ARIMA模型是一种时间序列预测方法,其含义为:假设1个随机过程含有d个单位根,其经过d次差分后可以变换为1个平稳的自回归移动平均过程,则该随机过程称为单积(整)自回归移动平均过程。ARIMA(p,d,q)公式如下

(8)

式中:p是自回归阶数,φi是自回归参数,xt是经过d阶差分后的平稳序列,q是移动平均阶数,ut是t时刻的随机扰动项。式(8)由自回归(AR)和移动平均(MA)2部分共同构成。

2 有色金属期货预测模型构建

2.1 数据来源与样本选择

2.1.1 数据来源

为了能够充分评估MLP、LSTM和ARIMA模型在有色金属期货市场上的预测效果,本文选取了全球最有影响力的两大有色金属交易市场——伦敦金属期货交易所(London Metal Exchange,LME)和上海期货交易所(Shanghai Futures Exchange,SHFE)作为国外市场和国内市场的代表,对2个市场上交易的金属期货的价格变动进行预测。研究对象具体涵盖:LME和SHFE交易的铝、铜、镍、铅、锡和锌这6种金属期货。涉及变量包括:金属期货的开盘价、最低价、最高价、成交量以及收盘价,均为日度数据。需特别说明,由于期货数据本身并不是连续的,每个合约有到期日,所以这里的日度数据是根据当月的主力合约构建而成的。数据源于Wind数据库和国际货币基金组织(International Monetary Fund,IMF)数据库。

2.1.2 总样本区间、训练集与测试集的划分

本文选用Wind和IMF数据库中自统计数据有记载之日起至2020年7月10日的所有交易数据。由于金融资产的价格是在买卖双方的交易作用下形成的,因此在数据筛选时剔除了成交量为0的当期数据。为进一步细化预测效果,本文对有色金属进行长、短期价格预测。采用20个交易日的时间长度衡量短期预测效果,采用250个交易日的时间长度衡量长期预测效果。本文的预测模型训练时,使用前60个交易日的数据信息预测第61日收盘价,因此将总样本区间剔除最后310个交易日后的数据作为训练集,分别选取最后310个交易日的前80和310个交易日数据作为短期和长期预测的测试集。

2.2 数据预处理

在建模过程中,为消除数据间的量纲影响并提升模型的预算速度,对所有有色金属期货的交易数据进行了零-均值(Z-score)规范化处理,其转换函数公式为

(9)

式中:X为需要被标准化处理的原始值,即有色金属期货的开盘价、最高价、最低价、收盘价和交易量,μ为各自的均值,σ为标准差且不等于0。Z经标准化处理,代表有色金属期货各变量和集合均值之间的距离,Z低于均值为负数,反之为正数,范围为(-∞,+∞)。

2.3 损失函数与优化器

(10)

选择优化器方面,本文选取Adam优化器自适应矩估计(Adaptive moment estimation)进行优化训练。Adam的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。以SHFE交易的铜期货为例,设置学习率为0.000 6时,可以看出迭代次数在500次的时候,网络已经比较稳定,故而迭代次数设置为500。图4为铜的Loss函数关于迭代次数的收敛情况,其他品种的参数设置可根据实际收敛情况进行动态调整。

图4 铜的Loss函数关于迭代次数的收敛情况图

3 预测方法及思路

3.1 机器学习模型预测

MLP神经网络和LSTM神经网络对每个有色金属期货预测思路均是:用60个交易日的历史交易数据对未来1 d的有色金属期货的收盘价进行预测。通常前60个交易日的交易数据已经包含足够信息对未来1 d的价格进行预测,超出60 d的交易数据对后续的影响不大。模型输入方面,本文采用有色金属期货的开盘价、收盘价、最高价、最低价以及成交量5个指标的日度数据作为模型输入,未来1 d的有色金属期货的收盘价预测值作为模型输出[12]。

3.2 线性ARIMA模型预测

ARIMA模型也记作ARIMA(p,d,q),是统计模型中最常见的一种用来进行时间序列预测的模型,ARIMA (p,d,q)作为线性模型的代表对金融市场的预测研究贡献极大。因此,本文采用ARIMA (p,d,q)模型作为评估LSTM模型的对照模型。具体预测思路是:首先对金属期货的收盘价取对数并进行一阶差分,通过增广迪基—富勒(Augment Dickey-Fuller,ADF)检验测试序列的平稳性;其次通过赤池信息量准则(Akaike information criterion,AIC)和贝叶斯信息准则(Bayesian information criterion,BIC)得到最佳模型参数ARIMA (p,d,q)并进行序列建模;最后采用已建好的ARIMA (p,d,q)进行预测。

4 机器学习模型与ARIMA模型预测效果对比分析

本文使用Python深度学习软件,对SHFE和LME的铝、铜、镍、铅、锡和锌6种有色金属期货价格分别进行长、短期预测。

4.1 预测效果评估指数

鉴于本文针对多种有色金属进行预测效果研究,选择相对误差指标作为预测评价指标。本文选用平均绝对百分比误差(Mean absolute percentage error,MAPE)。MAPE值越小,代表预测精度越高,模型的预测效果越好。

(11)

MAPE是衡量预测准确性的统计指标,是百分比值。一般认为MAPE小于10时,预测精度较高。但是,如果存在某个实际值yi为0,那么MAPE则无法进行计算。

4.2 长期预测效果对比

本文选用250个交易日的时间长度来衡量MLP模型、LSTM模型和ARIMA模型对有色金属期货收盘价的长期预测结果。表1和表2展示了在SHFE和LME上交易的铝、铜、镍、铅、锡和锌的预测结果。

表1 SHFE有色金属期货长期预测结果表 %

表2 LME有色金属期货长期预测结果表 %

横向比较观测数据,对于SHFE和LME,在6种有色金属期货的长期预测中,LSTM模型的MAPE值均小于MLP模型。同时,ARIMA模型对6种有色金属期货价格预测的MAPE值又均小于LSTM模型下的MAPE值。结果说明LSTM、MLP和ARIMA模型在对SHFE和LME的长期预测中,ARIMA线性模型的预测精度最高,LSTM模型其次,MLP模型最后。

图5展示了MLP模型、LSTM模型和ARIMA模型长期预测下的SHFE期货铜(简称沪铜)的价格走势图,能够更加清晰直观地看出各个模型的预测效果。综合2个金属期货市场可以得出:在长期预测中,ARIMA模型对6种有色金属价格的预测效果整体上优于LSTM模型的预测效果,MLP模型的预测效果最不理想。

图5 沪铜期货价格预测走势图

纵向比较观测数据:对LME预测,由于英国的期货市场起源较早,各金属期货合约挂牌交易均比较早,故而数据较为充分,6种有色金属期货价格的预测均未出现异常。对SHFE预测,MLP模型、LSTM模型和ARIMA模型都同时在对镍和锡的预测上出现了较大幅度的偏差,MLP模型、LSTM模型的偏差尤为明显,镍的MAPE值分别为8.73、2.10和1.31,锡的MAPE值分别为3.74、1.39和0.94,是每种模型在6种有色金属期货中MAPE值最大的2组。预测出现如此大不稳定性的主要原因在于,镍和锡的期货合约于2015年3月27日才正式在SHFE挂牌交易,因而两者的交易数据较少,训练集较少,导致非线性模型MLP和LSTM的训练过程受到了很大的限制,预测模型未达到收敛的效果即结束运行,故而在预测过程中出现了非常大的波动,预测效果欠佳。

4.3 短期预测效果对比

本文选用20个交易日的时间长度来衡量MLP模型、LSTM模型和ARIMA模型对有色金属期货收盘价的短期预测。表3、4展示了在SHFE和LME交易的铝、铜、镍、铅、锡和锌的预测结果。

表3 SHFE有色金属期货短期预测结果表 %

由表3可知,对6种有色金属期货收盘价的短期预测中,除有色金属镍外,SHFE、LSTM神经网络模型的MAPE值均小于MLP模型。对铝、铅、锌3种有色金属,LSTM模型MAPE值均略大于ARIMA模型。对镍和锡2种有色金属,LSTM模型MAPE值与ARIMA模型相差较大。对有色金属铜,LSTM模型MAPE值略小于ARIMA模型。因此,在SHFE交易的有色金属期货利用ARIMA线性进行短期预测的精确度较好,LSTM模型稍逊,MLP模型效果不理想。

由表4可知,对于LME的6种有色金属期货收盘价的短期预测中,LSTM神经网络模型MAPE值均小于MLP模型。同时可以发现,铝、镍、锡、锌4种有色金属期货的LSTM神经网络MAPE值大于ARIMA模型,说明在LME交易的铝、镍、锡、锌4种有色金属期货利用ARIMA线性模型预测效果较好;铜、铅2种有色金属的LSTM模型MAPE值小于ARIMA模型,表明LSTM模型在这2个期货品种上表现更加出色。由此可以得出,在短期预测中,MLP模型整体效果不够理想,但LSTM模型与ARIMA模型的预测精确度不相上下。

表4 LME有色金属期货短期预测结果表 %

4.4 LSTM模型和ARIMA模型长、短期预测结果分析

综合考虑2个金属期货市场情况可以得出,在长期预测中,ARIMA模型对6种有色金属价格的预测效果整体上优于LSTM模型的预测效果,MLP模型的预测效果最不理想。在短期预测中,ARIMA模型和LSTM模型对铝、铜、铅3种有色金属价格的预测效果相似,但在镍、锡、锌3种有色金属价格的预测中ARIMA明显优于LSTM模型,MLP模型的预测效果最不理想。

在2个金属期货市场出现上述机器学习MLP模型和深度网络学习LSTM模型预测效果未优于线性ARIMA模型的原因在于:

(1)有色金属期货价格受到供需平衡的影响,在供应旺季和消费淡季时,价格较低;反之,在供应淡季和消费旺季时,价格较高。结合期货合约的价格发现和套期保值功能,持有该期货合约规避风险的大型企业较多,故而交易量和交易价格具有明显的季节性特征。同一季节趋势变化较为稳定,不同季节之间差异很大,容易在换季节点出现价格大幅变动并很快平稳,故而在同一季节较为符合线性模型预测的时间序列稳定性要求。并且由于线性模型预测仅考虑收盘价1个因素的影响,预测结果有接近滞后1d的特点,在换季节点大幅变动后很快又平稳时,线性模型能迅速跟上,而长短期记忆模型仍需考虑预测日前多个交易日的数据,故而精确性受到一定影响。

(2)单纯使用某一有色金属期货的各项交易数据对收盘价格进行预测,对于深度学习的LSTM模型来说,存在数据规模不足,数据类型不够全面的问题。LSTM深度神经网络在训练时需要大量的训练数据,对于具有海量数据的金融模型的训练和学习有着天然的优势。然而如果针对某一有色金属期货市场的价格进行预测时,仅考虑将有色金属期货自身的交易数据作为影响因素远远不够。由于有色金属属于基础金属,更多的是作为原材料应用到工业生产领域,很大程度上受到国家宏观经济预期和基本面的影响,特别是新冠疫情的持续发酵导致市场情绪或趋于悲观,有色金属价格受到压制,因此对市场价格预测的过程中还需考虑与之密切相关的宏观经济因素、政策变更以及相关股票市场上的价格波动对其的联动影响。随着数据规模和数据类型的增加,将更多与有色金属期货价格相关的非线性因素纳入分析框架时,LSTM模型将是ARIMA模型的最优替代之一。

5 结束语

本文通过使用机器学习MLP模型、深度学习LSTM模型以及线性ARIMA模型,对在SHFE和LME交易的铝、铜、镍、铅、锡和锌6种有色金属期货进行长期和短期的价格预测分析,得出以下结论:

(1)在有色金属期货市场的长期预测中,ARIMA模型的预测表现均略优于LSTM模型,MLP模型最不理想;

(2)在有色金属期货市场的短期预测中,ARIMA模型的预测结果和LSTM模型相近,均优于MLP模型。

(3)LSTM模型与MLP模型相比,不论是模型的稳定性还是预测的精确度都更加出色。

在探究预测有色金属期货价格时,选取的数据相对单一会造成机器学习模型预测性能得不到充分发挥。鉴于机器学习擅长挖掘变量间的非线性关系,可以用来弥补ARIMA模型变量间线性关系的不足,随着数据规模及类型的增加,以LSTM为代表的深度学习模型会更具优势。因此,通过上述模型的比较,LSTM模型可作为ARIMA模型的最优替代之一。

在大数据时代的今天,人工智能技术的兴起与完善,为构建更有效的系统性风险监测模型提供了新的方向。本文将机器学习中的MLP模型和深度学习中的LSTM方法拓展应用于有色金属期货市场的价格预测,为人工智能技术广泛应用到量化投资领域提供了实践经验,为复杂金融时间序列的建模研究提供了参考,同时有利于提升量化研究方法的科学性与实用性。然而,本文对有色金属期货价格预测的变量选取仅仅基于历史交易数据,没有充分考虑其他影响因素,这将是本文后续研究的方向。

猜你喜欢
有色金属期货神经网络
基于神经网络的船舶电力系统故障诊断方法
MIV-PSO-BP神经网络用户热负荷预测
美棉出口良好 ICE期货收高
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
《有色金属材料与工程》投稿须知
基于图像处理的废有色金属自动分选算法研究
有色金属“回暖” 中长期谨慎乐观
基于神经网络的中小学生情感分析
《有色金属设计》2014年总目次