基于支持向量回归集成学习的新能源汽车销量预测

2021-07-16 06:28蓝镓宝

时代汽车 2021年10期

蓝镓宝

摘要：新能源汽车的普及，有利于减少大气污染，提高空气质量。但与新能源汽车相配套的公共充电基础设施、维修服务等问题却阻碍了新能源汽车销量的增长。因此，预测我国新能源汽车销量以完善相关配套措施、促进新能源汽车产业的发展就显得尤为重要。针对新能源汽车产业属于新兴产业，其相关历史数据较少，且销量变动较大以及影响其销量的因素存在非线性关系的特点，本文利用鲁棒性强的支持向量回归，以及具有较强的抗噪声能力的Bagging集成学习方法，对我国新能源汽车的销量进行预测和分析。首先，选取影响消费者购买意愿的公共充电桩数量和决定消费者购买能力的居民可支配收入作为模型的自变量，并收集相关数据;其次，从原始样本中随机抽取样本量为20的5个相互独立的样本集，并使用6个训练数据对这5个样本集进行训练，得到5个支持向量回归模型;然后，平均5个模型的结果，减少模型噪声，优化最终预测效果;最后，分析所得的预测新能源汽车销量模型的准确性及不足之处。

关键词：支持向量回归集成学习新能源汽车居民可支配收入公共充电桩数量

1 引言

随着环境污染和能源短缺的日益严峻，新能源汽车以其环保、节能的特点受到了各国政府的大力支持。2016-2019年，我国新能源汽车的年平均销量增速达55%以上，反映了我国新能源汽车行业发展迅猛。但随着该产业的发展，与新能源汽车配套的基础设施却“赶不上趟”，即相关配套基础设施不能满足市场上已销新能源汽车的需求。因此，预测新能源汽车的销量，合理建设配套设施就显得尤其重要。故本文选用具有较优并行能力处理原始数据的支持向量回归集成学习这一方法，预测新能源汽车的销量。

2 文献回顾

影响新能源汽车销量的因素较多，包括许多定量指标和定性指标。马琪、秦宇涛和杨立华认为，消费者的观念与行政激励会影响新能源汽车的销量[1];李创、叶露露和王丽萍运用 SOR 理论分析得出，收入影响消费者对新能源汽车的购买意愿[2];Feng Xiao、Huang Bo和Li Yuyu则从制造商角度进行研究，认为加大制造商的研发投入可提高新能源汽车的销量[3];Shanshan LI和Wensong ZHANG通过灰色关联模型研究得出，公共充电桩建设规模与新能源汽车销量关联度较高[4]。

综上研究成果，现有的预测新能源汽车销量模型并没有考虑到新能源汽车属于新兴产业，该行业存在销量波动较大的特点。因此，本文结合选用具有较强泛化能力的支持向量回归模型，以及抗噪能力强、对异常数据不敏感的Bagging集成学习方法，以提高预测的准确度。

3 支持向量回归集成学习

支持向量回归（Support Vector Regression，SVR）是一种宽容的回归模型，该模型原理为：利用支持向量的思想，设置一个偏差范围，当样本与真实值的差距超过这一偏差范围时，模型才会记录这一损失，再对数据进行回归分析。

张康宁和廖光忠认为，Bagging是一种集成个体之间相互独立，可以并行运算的一种集成算法。Bagging的主要原理为：从数据集D中进行有放回地随机抽样，得到m个样本数据集，然后基于每个样本数据集，训练一个基学习器，得到m个基分类器，平均m個模型的输出结果，得到最终结果[5]。

4 指标构建

4.1 居民可支配收入

在凯恩斯所提出的绝对收入假说中提到，收入与消费是相关的，即消费取决于收入。因此，居民可支配收入是影响新能源汽车的关键因素。随着我国经济的发展，居民收入水平的提高，人们会考虑选择购买节能低碳的新能源汽车。故新能源汽车的销量很大程度上取决于居民收入的多寡。

4.2 公共充电桩设施数量

新能源汽车主要为纯电动汽车以及油电混合动力汽车，故绝大部分新能源汽车都需要使用公共充电设施。公共充电桩作为新能源汽车的必备配套设施，需保证充电桩的数量与新能源汽车的销量相匹配。

5 实验

5.1 数据收集

居民可支配收入、公共充电桩数量以及新能源汽车销量的相关数据都来自于国家统计局[6]。

5.2 整合数据

把居民可支配收入、公共充电桩数量以及我国新能源汽车销售量的数据按照时间顺序对应排列。

5.3 构建支持向量回归集成学习模型

构建支持向量回归集成学习模型步骤如下所示：

首先，采用Hold-Out方法把样本数据分为两类：30个数据样本作为模型的训练集，6个数据样本作为模型的测试集。

其次，从训练集中随机抽取5个样本量为20的独立数据样本。然后，利用测试集依次对5个独立的数据样本进行支持向量回归分析，得到5个SVR模型。SVR模型的构建如以下步骤所示：

（1）假设预测值f（x）与真实值y之间允许存在一个可接受的误差，即当f（x）与y的绝对值差距大于误差时，才会被记为模型的损失。

（2）设为SVR模型函数;

（3）通过求解SVR的对偶问题、核函数，可得SVR函数：

式①中，;;为支持向量;为核函数。

最后，对这5个SVR模型结果进行平均，得到2018年Q3-2019年Q4的新能源汽车销量预测结果。

构建支持向量回归集成学习模型的流程如图1所示：

6 讨论

6.1 检验SVR模型的准确性

由表1可知，支持向量回归模型所预测的2018年Q3至2019年Q4的新能源汽车销量，在总体趋势上是准确的。该模型在某个季度的预测值出现了一定程度的偏差，主要有以下几个原因造成：

1、从2018年Q3至2019年Q3，模型的预测销量都比实际销量要低，主要是由于公共充电设施的不完善，使得消费者对新能源汽车的消费持观望的态度。但又由于相关政策的补贴，最终还是较快速地推动新能源汽车销量的增长;

2、2018年Q4的新能源汽车销量预测值远低于实际销量，主要是由于技术瓶颈，增加了我国新能源汽车制造成本，降低消费者消费意愿。2018年12月，比亚迪公司突破了相关技术瓶颈，降低新能源汽车的成本，使得2018年Q4的销量比2018年Q3增加了将近30%。

6.2 讨论支持向量回归集成学习的应用范围

支持向量回归模型具有较强的泛化能力处理相关数据少、自变量存在非线性关系的经济问题。Bagging集成学习能够处理异常数据，提高预测的准确率。故针对模型的特性，支持向量回归集成学习还能用于预测智能家居机器人这一新型产业产品的销量，以延长我国人工智能产业链，促进人工智能新型产业的发展。

7 结论

新能源汽车产业的发展关乎我国能源安全，本文针对已有的预测我国新能源汽车销量模型未考虑这一新兴行业历史数据较少、销量受各方面因素影响大的缺陷，选用支持向量回归集成学习，以预测新能源汽车的销量。并结合相关信息，证明了支持向量回归集成学习对新能源汽车销量的预测是准确的、有效的，说明了居民可支配收入以及公共充电桩的数量会影响新能源汽车的销量。

支持向量回归集成学习能够准确地预测许多新兴行业产品的产销量，推动了我国新兴产业的发展，有利于提振我国实体经济。但SVR集成学习也存在缺陷，SVR具有较强的泛化能力预测样本数据少、自變量之间为非线性关系的经济问题，但是Bagging集成学习会在个别偏差较大的数据的处理上存在过拟合的问题，对未知样本的预测能力一般。因此，在使用支持向量回归集成学习进行预测时，如何处理好两个工具处理数据的问题，还值得进一步研究与实验。

参考文献：

[1]马琪，秦宇涛，杨立华.新能源汽车购买意愿影响因素及其政策激励路径研究[J].复旦公共行政评论，2019（02）：36-63.

[2]李创，叶露露，王丽萍.新能源汽车消费促进政策对潜在消费者购买意愿的影响[J/OL].中国管理科学，2020.

[3]Feng Xiao，Huang Bo，Li Yuyu.R&D investment in new energy vehicles with purchase subsidy based on technology adoption life cycle and customerschoice behaviour.IET Intelligent Transport Systems[J].2020，14（11）：1371-1377.

[4]Shanshan LI，Wensong ZHANG. Forecast of China's New Energy Vehicle Sales Based on Multi-factor Grey Prediction Model[A].Conference Proceedings of the 7th International Symposiumon Project Management （ISPM2019）[C].重庆交通大学（Chongqing Jiaotong University）、湖北省众科地质与环境技术服务中心（Hubei Zhongke Institute of Geology and Environment Technology）.2019.

[5]张康宁，廖光忠.基于改善Bagging-SVM集成多样性的网络入侵检测方法[J].东北师大学报（自然科学版），2020，52（04）：53-59.

[6]中华人民共和国国家统计局.中国统计年鉴[M].北京：中国统计出版社，2020.