基于数据挖掘的消费者电动汽车购买意愿分析

2022-09-26 12:27张峰张丽娜张程
江科学术研究 2022年3期
关键词:特征选择意愿电动汽车

张峰 张丽娜 张程

一、问题的提出

随着汽车产业的发展,国内家庭汽车拥有量不断攀升,而汽车的尾气排放对生态环境造成严重的破坏。2012年7月,国务院印发《节能与新能源汽车产业发展规划(2012—2020年)》[1],提出“以纯电驱动为新能源汽车发展和汽车工业转型的主要战略取向,当前重点推进纯电动汽车和插电式混合动力汽车产业化”。新能源汽车产业成为战略性新兴产业,大力发展以电动汽车为代表的新能源汽车是解决能源环境问题的有效途径,市场前景广阔。但是,电动汽车作为一个新兴的事物,与传统汽车相比,消费者在拥有购买意愿的同时,对于诸如电池等一些方面仍存有顾虑,对电动汽车行业的发展产生了极大的影响。因此,对消费者电动汽车购买意愿影响因素进行挖掘分析,预测消费者的未来需求,有利于政府或企业制定更有效的营销策略,做出更加科学合理的决策,服务于电动汽车产业化,促进电动汽车产业的健康发展。

通过文献分析发现,针对电动汽车购买意愿的影响因素挖掘研究已有一些进展,如Hidrue等[2]通过研究发现行驶里程、燃料成本节约和充电时间是影响消费者购买电动汽车的重要因素。田园和卓慧娟[3]对电动汽车的性能、便利性等12 个影响因素使用SPSS 进行分析,结果表明电动汽车的性能和便利性是电动汽车购买的重要影响因素。杨洪宝和干宏程[4]通过确定产品属性、经济补偿以及消费者态度等3类对消费者电动汽车购买意愿有着重要影响的变量,结合Logistic 回归,建立消费者电动汽车购买意愿的预测模型,结果验证了影响变量的可靠性。姬丹丹等[5]对消费者购买汽车意愿影响因素进行研究,引入燃料成本和持有者总成本信息,结合排序Logit方法,对数据建模分析,结果表明燃料成本和持有者总成本信息对电动汽车的销售具有显著影响。

综上所述,国内外学者对电动汽车购买意愿影响因素的研究取得了一定的成果,但也存在一些不足之处。即当前多数研究考虑的影响因素比较单一,并未从消费者的角度出发,考虑到消费者自身的个人特征信息。鉴于此,本文从电动汽车的产品属性、消费者个人信息特征进行综合分析,同时结合消费者电动汽车体验数据,使用极端梯度提升(Extreme gradient boosting,XGBoost)对消费者电动汽车购买意愿的影响因素进行挖掘,并运用支持向量机(Support Vector Machine,SVM)建立消费者电动汽车购买意愿的预测模型,验证影响消费者购买的因素的有效性和可行性。

二、研究方法

(一)极端梯度提升

极端梯度提升(XGBoost)是一种改进的梯度提升树。其基本思想是先训练生成一个弱分类能力的模型,在生成新模型时,学习前一模型的残差,通过最小化目标函数,生成新的模型,如此迭代进行,最终由多个简单模型组合为强分类能力的新模型。该模型为

其中

(二)支持向量机

支持向量机(SVM)是一种经典的统计学习方法。在处理分类问题时,SVM 既可以处理线性可分问题,又可以处理非线性可分问题。

因此,得到具体优化问题为:

三、数据收集及清洗

(一)数据收集

通过文献分析,首先确定可能的影响因素;其次,通过对已体验电动汽车的消费者发放问卷进行调查,问卷由三部分组成,具体有消费者对电动汽车的满意程度,包括电池技术性能、舒适性等8 项特征变量;消费者个人特征信息,包括消费者的户口情况、驾龄、居住区域等17 项特征变量;消费者电动汽车购买意愿情况,如表1 所示。问卷共计发放2000份,回收1964份,回收率98.2%。

表1 消费者电动汽车体验数据特征变量

(二)数据清洗

由于获取的原始数据中存在大量异常、缺失等情况,因此对消费者电动汽车体验数据进行挖掘和预测,必须对其进行数据清洗,从而进一步提高数据集的质量。

首先,对原始数据中的异常值进行删除。异常值主要是指在数据记录中存在不符合逻辑或实际情况的数据。比如消费者对体验的电动汽车的电池技术性能的满意度打分值超过100 分,如分数“753.07”,对电动汽车的经济性打分出现“703.00”等异常情况;此外,在消费者个人特征信息数据中存在个人的出生年与居住时间、出生年与工作年限、家庭年收入与个人年收入以及个人婚姻情况与子女数等多种不切实际的情况,将这些异常数据进行删除,剩余有效数据共计1836条。

其次,对原始数据中的缺失值进行处理。缺失数据是指数据集中存在空白或未知数据的情况。在目标客户的个人特征信息中的“子女数”字段存在缺失值,缺失占比25.65%。针对该字段的缺失问题,本文分两种情况进行处理,包括:第一,关系填补,主要通过目标客户的个人婚姻类型与子女数的关系进行填补,如婚姻类型为1、2、3、4所对应的子女数应为0;第二,对于无法确定的缺失部分,本文通过众数填补的方法进行填补。

四、数据的特征选择

为在清洗后的数据中挖掘出对不同品牌电动汽车销售的影响因素,本文需对其进行特征选择。在特征选择的过程中,主要采用相关变量法和XGBoost特征选择对数据进行特征处理。

相关变量法,主要是指依据皮尔逊相关系数来衡量特征间的相关程度,删除相关程度强的特征。假设(x1,x2,L,xn)是一个n 维随机变量,对于任意xi与xj的相关系数存在,有

对于两个强相关特征xi和xj,比较ri与rj值,如果ri>ri,则保留xi,否则保留xj通过上述方法删除强相关性的特征,最后剩余15个特征变量。

XGBoost 特征选择,是指利用XGBoost 输出特征的重要度,特征重要度数值越大,表示特征的重要性越大。使用清洗后数据集构建XGBoost模型,计算各特征变量的相对重要性,该模型输出的15 个重要特征变量,如图1所示。

图1 特征变量的重要度排序

图1中,房贷占收入比、车贷占收入比、动力性表现得分的特征重要度在10%以上,对于消费者购买电动汽车具有重要影响;品牌类型、家庭年收入、居住时间、家庭成员数、居住区域类型、单位性质、职位类型、最高学历、户口类型、驾龄、工作年限以及子女数,对于消费者购买电动汽车也具有一定的影响。可以看出,决定消费者是否购买电动汽车的重要影响因素有电动汽车本身的因素,也有消费者个人特征的因素。因此在模型的构建过程中要考虑不同特征的影响,避免遗失重要的特征。

五、对比实验

(一)模型性能评估指标

消费者电动汽车购买意愿的预测结果即为消费者是否会选择购买电动汽车,这是一个典型的二分类任务。因此,本文使用二分类问题中常用的评估指标,即准确率(Accuracy,ACC)和F1值,来评估模型性能[7]。

其中,FN表示正类样本(即标签“1”)预测为负类(即标签“0”)的样本数,TP表示正类样本预测为正类的样本数,FP 表示负类样本预测为正类的样本数,TN表示负类样本预测为负类的样本数。

(二)类别不平衡处理

经过数据清洗和特征选择,有效数据共计1836条,包含特征15 个,其中未购买的客户数据样本有1744个,已购买的客户数据样本有92个,存在着严重的类别不平衡问题。因此,本文采用过采样技术从数据层面上进行处理,以平衡正负类样本数量。在类别不平衡处理方法中,SMOTE(Synthetic minority over-sampling technique)算法[8]是应用最为广泛的过采样技术,但该算法在采样过程中会产生样本重叠问题,容易导致过拟合现象。因此,本文采用其改进算法Borderline-SMOTE[9],来处理类别不平衡问题,该方法能够有效克服上述问题。消费者电动汽车体验数据平衡情况,如表2所示。

表2 消费者电动汽车体验数据平衡情况

(三)结果分析

为验证消费者电动汽车购买意愿的影响因素的有效性,本文在处理后的数据集基础上,运用SVM的方法,构建消费者电动汽车购买意愿的预测模型。具体地,本文将处理后的数据集按7∶3的比例随机划分训练集与测试集,并按照XGBoost模型输出的特征重要性分数从高到低,将特征输入到SVM 模型中。同时,为使模型达到最佳的分类效果,本文使用网格搜索算法进行优化,寻找最优参数。

为对比所构建模型的可行性,本文将所构建模型与Logistic、随机森林(Random forest)以及XGBoost等常用分类方法在测试集上进行对比,如图2所示。

图2 XGBoost特征选择下的不同分类方法的分类效果比较

从图2 中可以看出,当特征个数为8~13 时,SVM的分类效果优于其他分类方法,并且特征个数为9时,SVM 的分类效果最佳,即当特征个数为9 的特征子集为最优特征子集。不同分类模型在最优特征子集上的分类效果,如表3所示。

表3 中,可以看出SVM 在输入特征个数为9 时,其准确率达到97.99%,F1值为97.95%,明显优于其他模型在其最优特征个数下的分类效果。进一步验证了房贷占收入比、车贷占收入比、动力性表现得分、品牌类型、家庭年收入、居住时间、家庭成员数、居住区域类型、单位性质等9个特征是决定消费者是否购买电动汽车的重要影响因素。在这些因素中不仅有电动汽车本身的因素,也有消费者个人特征的因素,都是影响消费者购买电动汽车的重要影响因素。

六、结论

本文通过对消费者电动汽车体验数据进行清洗、满意度分析,结合XGBoost 对消费者电动汽车购买意愿的影响因素的挖掘,建立了基于SVM 的消费者电动汽车购买意愿预测模型,通过模型的分类效果验证了影响消费者电动汽车是否购买的因素不仅在于电动汽车产品本身的属性,也由消费者自身的个人特征决定。基于此可为电动汽车行业企业制定有针对性的营销策略提供良好的借鉴。

猜你喜欢
特征选择意愿电动汽车
健全机制增强农产品合格证开证意愿
网络入侵检测场景下的特征选择方法对比研究
纯电动汽车学习入门(二)——纯电动汽车概述(下)
汪涛:购房意愿走弱是否会拖累房地产销售大跌
电动汽车
基于最大信息系数和近似马尔科夫毯的特征选择方法
Kmeans 应用与特征选择
现在可以入手的电动汽车
基于特征选择聚类方法的稀疏TSK模糊系统
An Analysis on Deep—structure Language Problems in Chinese