基于P2P互联网金融的数据挖掘技术研究

2017-08-09 02:05陈雪改
关键词:借贷数据挖掘数据库

陈雪改,王 飞

(河海大学 商学院, 南京 211100)



基于P2P互联网金融的数据挖掘技术研究

陈雪改,王 飞

(河海大学 商学院, 南京 211100)

针对P2P网络金融平台借贷记录的历史数据量海量存在,却只是存储在数据仓库中,其蕴含的有效信息并没有被发掘的问题,在P2P网络金融平台的管理中融入数据挖掘技术。以Weka为数据挖掘工具,利用现有存储数据信息进行数据分析。通过平台算法以及数据模型的处理,以投标时间T、投标总次数N、投标借出总金额M三个指标为参考,将P2P网络金融平台中的出款人分为8种类型,并给出了这3项指标的整体聚类结果,分别为0.826 3、0.067 2、0.077 7,据此判断出款人的潜在价值,为平台管理者提供相应的参考。

互联网金融;P2P;Weka;数据挖掘;借贷分析

随着互联网技术手段在金融行业部分业务中的应用,产生了全新的互联网金融模式[1],其中各大银行所推出的手机银行与网银就是其重要的组成部分[2],从本质上影响了人类的金融模式。P2P网络金融,也称P2P信贷,是网络金融在借贷方面的发展方向[3-4]。它以低门槛、低难度的借款方式极大地提高了借贷服务的效率[5],有效地改变了小额贷款困难的现状。其次,它也是一种低风险高收益的理财方式。随着P2P网络金融的发展,其操作平台产生的借贷记录迅速增长,数据信息海量存在,但对历史数据的研究与应用却很少[6-7]。因此,本文将数据挖掘技术引入其中,借助Weka数据库的真实借贷款交易原始数据,通过数据挖掘找出有关借贷交易中相关要素的规律,一方面可以给P2P网络金融平台提供相应的参考意见,适当增加借款的类型、利率以及设置合理的还款期限等,实现平台的多元化,提高平台借贷交易成功率;另一方面也可以让借款人得到相关借款的指导意见。

1 数据挖掘技术

数据挖掘(Data Mining)作为一种新兴的计算机处理技术,应用时间较短但发展迅速,它融合了人工智能、机器模拟、数据库等现代技术[8]。它以海量不完整、清晰性缺失的并且包含噪声的随机数据为对象,从中提炼出人力无法直接获取的有价值的信息[9]。

1.1 数据挖掘的方法

在数据挖掘的理论研究中,最核心的内容是数据处理方法及相应技术。目前众多的算法模型不断涌现[10-12],主要有:统计学方法(比较有影响力的统计分析软件有SAS、SPSS、SMDP);关联规则挖掘、决策树方法、神经网络方法、可视化技术;粗集方法;遗传算法。其中粗集是一种从不确定、不完备或不精确数据中解决问题的新数学理论,近期在数据挖掘、模式识别和人工智能中得到了广泛的应用。

另外信息可能以文本、图像、视频以及web网页等半结构或者非结构化形式存在,因此复杂型数据挖掘技术也应运而生[13],主要有:研究空间结构数据的数据挖掘、分析视听特征的多媒体数据挖掘、时序数据和序列数据的挖掘、高纬度大容量的文本数据库挖掘、以资源查找—数据预处理—模式发现与分析为流程的Web数据挖掘。

1.2 数据挖掘体系结构

数据挖掘的步骤一般包括定义问题、准备数据、浏览数据、生成模型、验证模型、部署和更新模型6个基本步骤,流程如图1所示。其中准备数据环节是决定数据挖掘工作质量的关键[14]。数据挖掘的原始数据集并不都是理想的数据集,需要这一步骤从原始数据库中提取目标数据集,随之加工处理,从而获取有利于数据挖掘方法展开的数据形式。

图1 数据信息挖掘体系

1.3 数据挖掘工具

现在的大多数BI供应商如IBM Conges、SAP Business Object、Microsoft等在开发软件产品时会设计某种程度的数据挖掘功能,有些也会有较为专业的数据挖掘软件,如SPSS、SAS、StatSoft、Salford(CART、MARS、TreeNet、RandomForest)和Megaputer等[15]。在数据挖掘研究工作中,Microsoft 的SQL Server成为了最受欢迎的工具软件,这是因为它可以将数据和模型存储于同一关系型数据库环境中。

此外,以C语言和Java语言为语言基础的Weka系统也是数据挖掘工作常用的软件,它融合了丰富的数据预处理工具和多种先进的机器学习算法[16]。另外,Weka系统具有良好的兼容性,能与Windows、Linux,甚至Personal Digital Assitant操作系统兼容。Weka平台中所有的学习算法、工具都公用一个接口,可在一个操作界面总共呈现,能在最大程度上方便操作者权衡不同的工具和算法,从而找到最符合需求的工具和算法。

2 P2P互联网金融系统

P2P(即Person-to-Person)网络金融是依托互联网形成的一种新型的金融服务模式,其借贷快捷、程序简便的特点极大地方便了借贷人的融资与理财,也是现存银行体系的补充。目前涌现了多种以P2P网络金融为主营业务的平台,拍拍贷、宜人贷、红岭创投等为典型代表。国内外P2P网络金融平台运营模式基本相似,主要存在3种模式:① P2P网络金融平台采用线上浏览、线下交易的模式,平台以第三方身份介入借贷交易中,使借贷交易的风险转移第三方,以宜信为典型代表。② P2P网络金融平台采用保障本金制度,平台不仅起中介作用,还要承担保障出款人资金安全的风险,出款人对于借款人的坏账风险转移到平台自身身上,以拍拍贷为代表。这使得此类平台要对借款进行严格的审核,审核方式多种多样,如人工审核、实地调研、数据分析等。③ P2P网络金融平台采用不承诺保障本金制度,平台只负责借款人信息验证以及借款法律文件的生成,对任何借款不提供任何担保,平台仅仅起中介作用。

3 数据挖掘在P2P网络金融中的应用

3.1 借款分析

据相关网站的资料统计显示,现有的P2P网络金融平台的借款期限基本是1~5个月,平均还款时间为4.25个月。P2P网络金融平台的借款类型以及出款人较为偏好的出资借款期限导致了上述平台还款期限较短的现象。由于每个借款人的个人需求以及借款金额的不同,在考虑借贷类型、借贷利率、还款期限时所作的决定也会不同。所以本文借助Weka数据库的真实借贷款交易原始数据,通过数据挖掘找出借贷交易中相关要素的规律,完善网络金融知识体系。

3.2 数据挖掘应用平台的模块结构设计

根据数据挖掘的流程,数据挖掘技术在P2P网络金融平台中的整体设计包括确定问题、数据管理、模型设计这3个基本步骤,其中还包括数据提取等更具体的步骤,详细的流程如图2所示。

图2 平台整体设计流程

数据挖掘主要依靠数据平台提供的数据信息来进行,包括用户行为和个人信息的数据集合。它根据系统收集到的基本变量采集由用户的衍生变量信息,反欺诈系统将采集的个人信息整理,通过机器学习模块训练用户行为模型,最后通过工作流引擎完成自动审核。这需要多个模块的相互配合,各模块关系如图3所示。

图3 平台系统设计中的模块关系

3.3 数据挖掘应用平台的实现

3.3.1 连接数据库

数据挖掘的研究对象是数据库中存储的大量数据信息,因此应用平台运行的基础就是数据库。为了能让Weka识别中文,在RunWeka.ini文件中将afileEncoding1252重命名为fileEncodingGB2312。然后打开Weka的安装文件夹中的Weka.jar,找到experiment文件夹中的DatabaseUtils.props文件重命名。打开重命名后的DatabaseUtils.props文件,按照以下方法修改文件内容:

#Database settings for Microsoft SQL Server 2008

#url:http://www.microsoft.com/

#jdbc:#Database settings for Microsoft SQL Server 2008#

#author:Fracpete(fracpete at waikato dot ac dot nz) huzhyi21@163.com

#version:$Revision:543#JDBC driver(comma-separated list)

jdbcDriver=com.microsoft.SQLserver.jdbc.SQLServerDriver

jdbcURL=jdbc:SQLserver://locaniost:133;databaseNanie=test; user=abc;password=123

修改文件路径之后还需要添加环境变量。右键单击“我的电脑”,“系统属性”中,单击“环境变量”,在Administrator的用户变量选项卡中添加Weka-Home环境变量,同样地添加Classpath环境变量。最后启动Weka程序,在Weka Gui Chooser界面,单击Explorer选项,随之在Weka Explorer界面中单击Open DB按钮。在SQL Viewer界面中的URL中输入有效文件地址。单击connect按钮就可以进行数据库连接。当Info文本框内显示true,则说明Weka已经连接成功,这时在Query文本框中输入査询语句,单击Execute按钮就能访问数据了[17]。

3.3.2 数据挖掘应用平台实现结果

本次应用平台数据挖掘功能的实现主要依据Weka数据库中存储的数据信息。首先利用Weka中的规范化算法对目标时间内的投标时间T、投标总次数N、投标借出总金额M进行预处理,以取消不同变量间的不同纲量带来的影响。然后借助Weka数据库中的Simple-K-Means算法对数据模拟运算,通过更改“seed”参数值,得到的不同Within cluster sum of squared errors的值,该数值越小说明同一簇实例之间的距离越小,通过几次尝试后最终确定参数k=8时聚类效果较好。因此把出款人划分为8类,规范化后处于中心的出借人投标时间T、投标总次数N、投标借出总金额M的值如表1所示。

表1 聚类结果

最后再将每一簇中心及每一簇规范化后的出借人的这3项指标均值与全体规范化后的出借人的项目指标值作比较,其中“↑”表示大于平均值,“↓”表示小于平均值,这也是对出款人级别判断的参考标准。

由表2可以发现:利用数据挖掘技术对Weka采集的数据进行分析处理能够合理有效地对平台所拥有的众多出款人分类标示,实现P2P网络金融平台对不同类型出款人的区别管理,能够提高用户黏性以及优化平台资源的利用。

表2 出款客户的类别

4 结束语

本文根据我国网络金融的借贷市场运行规律,将先进的数据挖掘技术融入P2P网络金融平台的日常管理中,利用该项技术对其存储数据进行实证分析,提高平台管理方对于注册用户的认识,对借款进行分析。P2P网络金融平台根据数据分析的结果,对出款人进行价值判断,在降低网络金融风险、保障各项参与者切身利益方面起到了不可忽视的作用,也为维持虚拟金融市场秩序提供了一种有效的方法。另外,本文研究的方法对于分析借款人的资产以及偿还能力等也有一定的作用。

[1] 陆岷峰,虞鹏飞.互联网金融背景下商业银行“大数据”战略研究——基于互联网金融在商业银行转型升级中的运用[J].经济与管理,2015,29(3):31-38.

[2] 高娜.基于互联网金融平台的大数据挖掘研究[J].商,2015(48):196-197.

[3] 冯笑,陈翼.基于互联网金融平台的大数据征信实践与启示——以阿里旗下“蚂蚁金服”为例[J].中国市场,2015(32):86-87.

[4] 张静,常若贝.共享金融背景下的P2P互联网金融平台发展对策研究[J].时代金融旬刊,2016(7):60-61.

[5] 王曙光,孔新雅,徐余江.互联网金融的网络信任:形成机制、评估与改进——以P2P网络借贷为例[J].金融监管研究,2014(5):67-76.

[6] 蒋莉莉.商业银行P2P互联网投融资系统[J].电子技术与软件工程,2015(13):35-36.

[7] 周雅慧,张一舟,米晋宏.IDEA:一种基于P2P借贷网络的投资决策分析算法[J].计算机系统应用,2016,25(9):200-206.

[8] 陈春燕.一种P2P网络的信息优化检索算法的仿真分析[J].科学技术与工程,2013,13(9):2572-2578.

[9] 储兵,吴陈,杨习贝.基于RBF神经网络与粗糙集的数据挖掘算法[J].计算机技术与发展,2013,23(7):87-91.

[10]李瑞华,鱼斌.基于关联规则的数据挖掘算法研究[J].榆林学院学报,2010,20(2):62-64.

[11]朱中炜,韩旭,李泽琳.基于XML和SVG的体育数据可视化的技术研究[J].电子技术与软件工程,2015(21):198-198.

[12]杨莎,余伟,李石君,等.基于Web大数据挖掘的证券价格波动实时影响研究[J].计算机科学,2015,42(4):166-171.

[13]李丹,张兆信,宗占国.利用开源的数据挖掘平台WEKA进行文本分类仿真实验[J].煤炭技术,2011,30(5):214-216.

[14]何清,庄福振,曾立,等.PDMiner:基于云计算的并行分布式数据挖掘工具平台[J].中国科学:信息科学,2014,44(7):871-885.

[15]范多锋,徐俊刚.大数据量下的Apriori改进算法及在weka平台的实现[J].电子技术,2012(7):1-4.

[16]刘文凤,卿晓霞.Chameleon聚类算法的Weka实现[J].计算机系统应用,2010,19(12):246-250.

[17]朱宗元,王景裕.P2P网络借贷平台效率的综合评价——基于AHP-DEA方法[J].南方金融,2016(4):31-38.

(责任编辑 林 芳)

Research on Data Mining Technology Based on P2P Internet Finance

CHEN Xuegai, WANG Fei

(Business of School, Hohai University, Nanjing 211100, China)

The historical data volume of the borrowing records of P2P financial platform is huge, but it is only stored in the data warehouse, and the effective information contained in it is not discovered. In the P2P network financial platform management, it introduces into data mining technology,using Weka for data mining tool, and it uses the existing stored data information for data analysis; Finally, trough the platform algorithm and data model processing, the bidding timeT, the total number of times the tenderNand the total amount of tender lendingMare as the reference to the P2P network financial platform which will be divided into eight types of payers, and the overall clustering results of these three indexes are 0.826 3,0.067 2,0.077 7 respectively, and then according to it, we determines the potential value of the money, which provides the appropriate reference for platform managers.

internet banking; P2P; Weka; data mining; borrowing analysis

2017-02-07

国家自然科学基金资助项目(71372166);江苏高校哲学社会科学研究重点项目(2010ZDIXM004)

陈雪改(1990—),女,硕士研究生,主要从事公司金融研究,E-mail:businesschen1990@sina.com;王飞(1959—),男,硕士生导师,主要从事财务管理和会计金融研究。

陈雪改,王飞.基于P2P互联网金融的数据挖掘技术研究[J].重庆理工大学学报(自然科学),2017(7):151-155.

format:CHEN Xuegai,WANG Fei.Research on Data Mining Technology Based on P2P Internet Finance[J].Journal of Chongqing University of Technology(Natural Science),2017(7):151-155.

10.3969/j.issn.1674-8425(z).2017.07.024

TN02

A

1674-8425(2017)07-0151-05

猜你喜欢
借贷数据挖掘数据库
探讨人工智能与数据挖掘发展趋势
让民间借贷驶入法治轨道
基于并行计算的大数据挖掘在电网中的应用
数据库
数据库
数据库
民间借贷对中小企业资本运作的影响
数据库
一种基于Hadoop的大数据挖掘云服务及应用
信息不对称下P2P网络借贷投资者行为的实证