基于交易数据的券商个人客户风险偏好识别

2018-06-29 10:44
福建工程学院学报 2018年3期
关键词:聚类对象矩阵

(1.福建工程学院 信息科学与工程学院, 福建 福州 350118; 2.福建省大数据重点实验室, 福建 福州 350118)

证券投资者不断地成长、成熟,逐渐认识到了证券市场难以预测与把握,并反思自己的投资行为和理念。尤其是个人客户开始倾向于思考自己的风险特征,关注与其风险属性相匹配的产品和服务。另一方面,在实际营销中,券商可提供的产品众多,如何体现客户对产品的偏爱和找到匹配的客户,无疑是增加营销成功率的关键。券商必须通过调研,了解客户的实际状况与需求,才能正确地评价客户并为之提供合适的产品或服务。券商可以从客户外在行为中挖掘出他们内在的特征和需求,并据此对客户进行分类管理。这也是证券行业监管规定和要求[1]。

已经有许多学者将数据挖掘技术应用于证券行业的相关研究。如吴峰用概念聚类的方法分析客户的交易行为,针对客户买卖行为,得出影响客户盈亏的一般性规律[2];R.J. Kuo对数据进行新二阶段法的处理,以此开展客户分类的研究[3];梁敏君描述了分形聚类方法对客户在资金、贡献度、交易频率方面的分类研究[4]。钱维佳提出了证券客户细分的多维模型,从客户贡献度、忠诚度、活跃度、收益率、资产、响应度、依赖度、套牢度、风险度9个方面来划分客户[5]。尔古打机等提出基于用户行为分析的移动终端偏好模型研究[6]。以上研究多数基于客户价值、客户生命周期、客户忠诚度等角度来进行客户分类管理,对证券公司客户基于投资标的风险偏好研究较少。少量涉及到投资偏好的研究也比较局限,不能突出客户的风险偏好特征。因此本文提出基于个人客户风险偏好识别的模型非常有意义。

1 问题描述和模型构建

本文是对证券公司个人客户的风险偏好识别提出1种模型。其主要思路是对券商的个人客户交易数据进行清洗、提取主成分;再运用数据挖掘的算法,开展深层次的聚类与分析,从而发现隐藏的客户风险偏好的相关规律。图1为模型框架。

图1 个人客户风险偏好识别模型Fig.1 Individual customers’ risk preference recognition model

第1阶段:数据准备。本文使用主成分分析来简化数据。原始数据是某证券公司的真实交易数据。主成分矩阵数据是输入变量。

第2阶段:建立数据挖掘模型。建立数据挖掘的循环迭代模型。利用改进的K-means算法得到客户的交易类别划分结果。

第3阶段:客户风险偏好集成。一方面基于上述的聚类结果,即客户的交易类别划分,结合不同产品的风险值,可确定客户的交易风险偏好。另一方面,通过证券交易系统的在线问卷调查可以获得客户的主观风险偏好。二者相结合,可以得到客户的风险偏好的最终结果。

1.1 数据准备步骤

应用主成分分析的目的是减少数据集的维数,先将原始数据样本进行z标准化变换消除量纲影响,再求其相关系数矩阵,最后做出成分分析得到成分矩阵。

定义1对于有n个样本的原始矩阵X,n为样本数,p为变量数。

对X进行z标准化变换的公式如公式(1)所示。

(1)

(2)

对协方差阵R计算特征值和正交化单位特征向量ai,i=1,2,…,p.由特征向量ai按公式(3)计算可得各综合向量指标Fi。

Fi=a1ix1+a2ix2+…+apixp,i=1,2,…,p.

(3)

由各综合向量指标可计算其方差贡献率,再根据累计的贡献度来筛选出主成分。从而得出样本的主成分矩阵。

1.2 改进的K-means聚类算法

本文采用改进的K-means算法对客户样本主成分矩阵进行聚类分析。K-means算法是数据挖掘中经典的聚类分析法[7]。由于证券公司客户样本数据庞大,K-means比较适合应用于证券公司的客户分类。

传统K-means算法步骤:

1)利用随机函数,在样本范围内选取k个点作为初始聚类中心。

2)计算各个样本到聚类中心的距离,把样本归到离它最近的那个聚类中心所在的簇。

3)对各簇重新按均值计算新的聚类中心。

4)回到2)步骤,循环迭代直到各类聚心稳定。

本文算法改进的部分是初始聚心的选择策略和删除临近大簇的小簇2个方面。

(1)改进的初始聚心选择策略

本文选择初始聚类中心的方法为:先取每1种成分中最大值的对象作为m个初始聚心,接着从其余的样本对象中再找出新的聚类中心,依据是与现有的全部聚类中心的距离之和最大,循环选取,直到聚类中心总数满足k为止。这样得到的初始聚类中心在样本中的分布相对均匀且受样本的输入顺序影响较小,缺点是牺牲了一点时间,但这对于现代计算机来说,可以忽略不计。

(2)聚类数目K的删减

原始的K-means算法是没有删减聚类中心的[2]。本文的改进是每轮聚类结束对每个簇中对象数目进行统计,对任意最邻近的两个簇,如果满足(4)式则删除簇i的簇心。

num_Ci

(4)

式(4)解释为编号i的簇中对象数目小于其最邻近的标号j的簇的对象数,且两个簇的簇心距离要小于2倍的第i簇簇心到其最远对象的距离。

若簇i被删除,这个簇的对象在下次聚类中按距离远近原则重新被分配到最临近的其他簇中,这样的目的是使簇数量按邻近原则合并达到一个相对合理值。如图2所示的簇C1和C2将有一个被删除,在下次聚类时对象将合并为一个大簇。这样考虑是为了合并紧密的簇。而有些簇的对象数目较少但与其他簇距离偏远,具有独立特征的,不易满足上述距离的不等式,因此不会被删除。

图2 C1与C2合并Fig.2 Merge C1 and C2

为了易于实现算法,本文设计的一个簇结点。其中节点的信息包含簇编号、簇心位置、该簇对象数目、最邻近簇心编号、距簇心最远的对象距离值、下一个簇节点地址。

改进后的K-means算法流程为:

1)确定K个簇的初始聚心。

2)找出每个簇的最邻近簇,并计算其与最邻近簇簇心之间距离。

3)将所有的样本对象分配到最邻近簇,同时更新每个簇对象数目及簇中与簇心最远的对象距离值。

4)对象分配结束,按均值调整每个簇簇心,若所有簇心位置无调整,算法结束。

5)按照式(4)计算每个簇,删除满足条件的簇心,每删除一个簇心,K数目减1。修改相应的链表结点指针域保持链表完整。回到步骤2)。

为了避免特殊的噪声点在上述算法中引起簇不断合并为一个簇。可以在步骤4)中增加阈值t,满足簇的总数目小于t时,停止算法。通过几次训练,也可以得到合理的t值设定。

2 实证分析

2.1 数据准备

以中国X证券公司为例,使用了该公司2015年4月到6月的数据。原始样本矩阵经过公式(1)-(3)处理后,得到各成分的方差累积贡献度如表1所示。表1显示的是前10项综合指标解释的总方差可以代表原有信息的95.23%。本文依据这10个综合指标建立样本的主成份矩阵。

2.2 聚类结果

按上文所述算法进行聚类。经过多次的训练,样本客户群体最终在15个分类的时候达到一个相对稳定的结果。15个类别特征描述如表2所示。

2.3 模型稳定性测试

使用2015年度4-6月份和7-9月份的数据验证模型的稳定性. 验证结果如表3所示.结果显示两组数据分类结果相差不大,各个类别占比只有千分以下的差距。也可以看出中国个人客户偏爱A股占大多数。

表1 各成分累积方差贡献度

表2 X公司客户按产品偏好分群聚类结果Tab.2 Clustering results of X company’s customers according to product preference

表3X公司客户以3个月份为时间窗口的分群聚类验证结果

Tab.3VerificationresultsoftheclusteringofXcompany’scustomersusing3monthsasatimewindow

群体序号4-6月份使用模型分类占比5-7月份使用模型分类占比118 4523.888 2117 6503.726 9321 6500.347 681 5410.325 39313 8982.928 5912 7922.701 1242 2810.480 652 7130.572 8753 0980.652 813 1070.656 0667 6291.607 587 6151.607 9674 0500.853 414 0720.859 8381 1020.232 211 0900.230 16949 07610.341 3248 99410.345 451031 9206.726 2032 2206.803 4911320 84767.609 07321 30867.846 61123 2260.679 783 2590.688 16134 1310.870 484 3350.915 36146 4721.363 786 3991.351 19151 5240.321 131 5490.327 08

3 营销策略

客户风险类别会发生变化.因此风险偏好识别模型对客户的风险属性应持续跟踪、动态评估,

不断更新才能更客观真实的反映客户风险属性。根据以上的模型分析结果,本文为证券公司理财顾问开展专业服务和专项营销活动提出以下建议。

(1)依据市场规律,证券公司为客户提供适当性服务,可依据客户风险属性,提供适合于客户风险偏好的资产配置或投资组合建议服务,帮助客户将高风险资产的配置比例控制在与其自身能力相适应的范围内。这样更容易获得客户的认可,建立和维系忠实客户群。

(2)在专项营销中,证券公司可以先评估营销产品的风险特征,匹配与产品相适应的客户的风险偏好和类别,在此基础上从客户数据库中筛选出目标客户名单,供理财顾问更有针对性的开展一对一营销。这样易于锁定可能的目标客户群体,提高产品销售的适当性和成功率。

4 结论

综上所述,本文提出了客户风险偏好分析模型。对客户的交易数据,使用主成分分析法对冗余变量进行剔除,应用改进的K-means算法建立客户细分模型,达到客户分组目的,并对每一群组客户进行特征描述,进而提出相应的营销策略。本文的创新在于用侧重交易标的来划分客户群组,动态修正来体现客户的成长和偏好变化,提出针对不同标的群类提供相匹配产品的营销策略,更具针对性和提高营销成功率,是帮助证券公司有的放矢地进行服务和产品的推荐。

参考文献:

[1] 何海鹰,朱建平,谢帮昌.证券投资意识调查分析[J].统计研究,2008,25(9):49-54.

[2] 吴峰,施鹏飞.概念聚类挖掘方法的客户交易行为分析[J].微型电脑应用,2000,16(5):26-28.

[3] KUO R J, HOL M, HUC M. Cluster analysis in industrial market segmentation through artificial neural network[J]. Computers and Industrial Engineering, 2002, 4(2): 391-399.

[4] 梁敏君.分形聚类分析在证券客户细分中的应用研究[D].合肥:合肥工业大学,2009.

[5] 钱维佳,王延清.基于动态聚类的证券业客户细分实证研究[J].计算机应用,2010,30(2):495-498.

[6] 尔古打机.基于用户行为分析的移动终端偏好模型研究[C].第八届(2013)中国管理学年会论文集(选编),2013.

[7] 王学民.应用多元分析[M].3版.上海:上海财经大学出版社,2009:209-211.

猜你喜欢
聚类对象矩阵
涉税刑事诉讼中的举证责任——以纳税人举证责任为考察对象
基于K-means聚类的车-地无线通信场强研究
攻略对象的心思好难猜
基于高斯混合聚类的阵列干涉SAR三维成像
基于熵的快速扫描法的FNEA初始对象的生成方法
初等行变换与初等列变换并用求逆矩阵
区间对象族的可镇定性分析
矩阵
矩阵
矩阵