实例模型在投资组合最优化中的应用

2017-02-04 14:47谭袁月

商业研究 2016年12期

摘要：如何在P2P网络借贷中实现收益和风险的最优化组合是投资者关注的核心问题。本文将投资者的投资组合最优化决策转化为在一定预期收益率下的风险最小化问题，利用核回归刻画历史贷款与新贷款的相似度，以相似度为基础构建实例模型，支持投资者进行投资组合的最优化决策；进而以在线网络借贷平台人人贷2015年散标交易数据为样本，对使用实例模型的可行性进行实证研究，结果表明，实例模型表现出良好的预测能力，有助于P2P借贷平台的投资者进行投资组合的最优化决策。

关键词：网络借贷；实例模型；投资组合；最优化

中图分类号：F83 文献标识码：A

作者简介：谭袁月（1995-），女，河南漯河人，东北财经大学金融学院研究生，研究方向：互联网金融。

P2P互联网借贷（Peer-to-Peer Lending）是一种将投资者的资金聚集起来直接贷给资金需求者的借贷方式。与传统的银行借贷不同，P2P网络借贷不需要第三方中介参与，借贷双方直接交易。在P2P网络借贷中，借款者在网络平台上提交贷款申请，标明贷款额度及愿意支付的最高利率，投资者对感兴趣的贷款投标，若贷款额度在规定时间内被投满，借贷关系形成。为了降低投资风险，投资者往往选择分散、小额投资的方式。由此，投资者如何在不同贷款间分配投资金额，在实现预期收益的同时最小化风险尤为重要。

一直以来，P2P贷款的投资决策多依据评级模型（Rating-based model），评级模型根据风险水平不同将贷款分为七个等级，每个等级贷款风险水平和收益率相同。投资者可根据网络借贷平台给出的评级估计新贷款的收益率和风险水平。但这种等级划分比较粗糙，每个等级中包含贷款较多，无法体现出同级贷款间的差别，所以投资者仅根据评级模型难以做出选择。与评级模型不同，实例模型（Instance-based model）根据历史贷款和新贷款分别发生逾期的概率，通过核回归确定历史贷款和新贷款的相似度，对不同历史贷款赋予不同的相对权重，以相似度为基础预测每笔新贷款的收益率和风险水平。相较于评级模型，实例模型预测新贷款的收益率和风险水平精确度较高，进一步优化了投资组合。本文以人人贷网站2015年散标交易数据为数据集进行实证，验证实例模型对投资者进行投资组合最优化决策中的作用。

一、文献综述

P2P网贷是一种基于互联网的新兴商业模式，对于借款者而言，小额度的资金聚集起来借给有资金需求的人群，提高了金融效率（Berger & Gleisner，2009）[1]。对于投资者而言，将有限的资金分散投资给不同的资金需求者，旨在追求较高的收益率和较低的风险水平。由于P2P贷款大多数不需实物抵押且借款者背景复杂，所以投资者在确定投资组合时，如何较为准确地预测新贷款的收益率和风险水平至关重要。张正平和胡夏露（2013）分析了拍拍贷和宜信的运营模式，并根据青岛地区的网贷平台多采用抵押的特点，提出了青岛模式[2]。但是，国内大多数P2P网贷平台均不需借款者提供实物抵押，例如国内主要网络借贷平台宜人贷、拍拍贷、安心贷、红岭创投、宜农贷等。大多数的网络借贷平台不以实物抵押形式发起借贷行为，可能增大投资者的投资风险，投资者如何进行投资决策成为众多学者关注的问题。

国内学者多将P2P网络借贷平台上的单笔贷款投资决策作为研究对象。陈冬宇（2014）从投资者的角度构建P2P放贷行为模型。通过实证分析，发现投资人的风险偏好、借款请求信息完整度、借款人的社会资本及网络借贷平台的整体逾期率是影响投资者单笔投资决策的关键因素[3]。郭艳红等（2016）从投资者历史投资的收益率、风险偏好以及投资经验三个维度构建投资者档案，辅助投资者进行单笔投资决策，并以美国P2P网络借贷平台Prosper交易数据进行实证研究[4]。鲜有学者对P2P网络借贷中投资者的投资组合决策进行相关研究。

在P2P网络借贷中，投资决策风险有多种评估方法。徐喆（2015）采用逻辑回归法研究影响贷款逾期的主要因素，进而预测贷款的风险水平[5]。与逻辑回归法的效果相同，Puro & Teith（2009）通过贷款投标次数的多少衡量贷款相似度，构建了一个可根据新贷款的投标次数寻找过去相似贷款，并以此为依据来预测新贷款偿还情况的模型[6]。这一思路为本文研究提供了基础思路，历史贷款与新贷款的相似度是下文构建实例模型的关键。但是，Puro & Teith的模型只关注与新贷款相似度较高的历史贷款，考虑到高相似度会导致样本容量较小，此类模型预测误差较大。所以本文将相似度定义为贷款间发生逾期的概率的相对距离，采用核回归[7]，根据相似度大小对一定时期内所有历史贷款赋予不同的相对权重，历史贷款相对权重的大小取决于相似度的高低，从而显著扩大样本容量，解决在样本量较少的情况下预测精确度较低的问题。

Guo & Luo（2015）运用实例模型预测贷款的收益率和风险水平，并采用美国网络借贷平台Prosper数据进行实证研究，证明了实例模型在预测贷款收益率和风险水平上精确度较高[8]。本文在该研究的基础上，采用中国网络借贷平台人人贷散标交易数据进行实证研究，进一步验证实例模型实用的可行性。

二、模型构建

（一）实例模型的基础思路

在P2P网络借贷关系中，每个借款者的交易量有限，样本较少。为了扩大样本容量，利用核回归方法，将一定时期内的所有历史贷款均引入模型，根据历史贷款与新贷款的相似度的大小，赋予不同的相对权重，对历史贷款的收益率加权平均以预测新贷款的收益率；并以收益率为基础，测算新贷款的风险。

相似度以历史贷款与新贷款发生逾期概率的距离d来衡量，相似度越高，该贷款被赋予的相对权重越大。借鉴徐喆（2015）逻辑回归的做法，本文选取借款者的信用评分、贷款金额、该借款者在过去六个月中贷款申请次数、借款者的负债—月收入比和借款者的房产拥有情况作为借款人的基本因素，构建历史贷款发生逾期的概率p和上述基本因素的解释方程，得出历史贷款和新贷款发生逾期的概率的估计值：

Zj为借款人的基本因素。其中，Z1j为借款者的信用分数，Z2j为借款者六个月中的借款次数，Z3j为借款金额，Z4j为借款者是否拥有房产（0=没有，1=有），Z5j为借款者的负债—月收入比。根据该解释方程可得出历史贷款j和新贷款i发生逾期的概率的估计值。假设历史贷款发生逾期的概率为pj（j=1，…，n），新贷款发生逾期的概率为pi（i=1，…，m），二者贷款发生逾期概率的距离为dij，即pi和pj的差的绝对值：

dij越小，说明贷款i和贷款j相似度越高，对应的核权重wij越大。通过核回归计算出核权重wij，其基本思想如图1所示，假设共有两笔历史贷款L1和L2，需预测贷款L3的收益率和风险水平，首先通过逻辑回归分别计算出贷款L1、L2和L3发生逾期的概率1、2和3，然后分别计算贷款L1、L2与贷款L3发生逾期的概率的距离，即d13和d23，进而计算出贷款L1和L2的相对权重w13和w23。新贷款的收益率μi由历史贷款的收益率μj加权平均后计算得出，其中历史贷款的收益率μj源于历史贷款的交易利率。考虑到贷款风险与贷款收益率的波动性呈正比关系，收益率波动大，风险就大，反之亦然。因此，贷款的风险以贷款收益率的方差σ2近似量化。

计算出新贷款的收益率μi和风险σi2的估计值后，投资者可根据估计值确定投资组合的期望收益率μ*，将投资组合决策转化为在一定期望收益率下的风险最小化问题，以确定对每笔贷款的投资比例λi。

（二）实例模型的构建

本文将实例模型分为收益率预测模型和风险预测模型，分别估计出新贷款i的收益率μi和风险水平σi2，进而根据收益率和风险的估计值构建最优化方程组，确定在一定期望收益率μ*下风险最小化的投资组合。

1.收益率预测模型的构建

假设过去有n笔贷款，收益率为μj（j=1，2，…，n），基于实例模型的理论基础，相似度越高的历史贷款被赋予的相对权重越大，采用对过去n笔贷款收益率加权平均的方法预测任意给定贷款i的投资收益率μi：

μi=∑nj=1wijμj（3）

历史贷款j的相对权重wij通过核回归（Nadaraya， 1965）测算得出，核回归是一种衡量两个随机变量间非线性关系的统计学方法[9]。假设每组观测值包含两个变量，预测变量X和反应变量Y，并对n个事例进行观测，{（xf，yf）|f=1，2，…，n}，根据观测值x得出的y的估计值为：

核回归中，参数h为核回归的“带宽（bandwidth）”，为了提高模型的拟合度，带宽h需基于训练数据集H做最优化处理。Clark（1975）提出了舍一交叉验证最小二乘法[10]。通过最小化交叉验证误差计算出带宽h：

CV（h）=1n∑ni=1（h（x-i）-yi）2（6）

（x-i）为yi的舍一估计值。

为了计算出最优的带宽h，Silvermen（1986）提出：

h0=（43n）1/5δ（7）

δ是预测变量的标准差，并指出最优h值在0.25h0和1.5h0之间[11]。

通过核回归计算最优带宽h时，历史贷款发生逾期的概率为预测变量，历史贷款的收益率为反应变量，它们的观测值表示为{（pj，μj）|j=1，2，…，n}。公式（6）可写为：

CV（h）=1n∑nj=1∑nk=1，k≠jK（pj-pkh）μj∑nk=1，k≠jK（pj-pkh）-μj2（8）

通过核回归计算权重wij时，新贷款发生逾期的概率为预测变量，新贷款的收益率为反应变量，它们的观测值表示为{（pi，μi）|i=1，2，…，m}，公式（4）可写为：

μi=∑nj=1K（pi-pjh）μj∑nj=1K（pi-pjh）（9）

将公式（9）与公式（3）联立，可计算出权重wij为：

wij=K（pi-pjh）∑nj=1K（pi-pjh）=K（dijh）∑nj=1K（dijh）（10）

上式验证了与新贷款发生逾期的概率越接近的历史贷款在预测模型中对应的相对权重wij较大的观点。

计算出wij后，可根据公式（3）得出贷款i的收益率的值μi。

2. 风险预测模型的构建。新贷款的风险近似处理为历史贷款收益率的方差：

σi2=∑nj=1wij（μj-μi）2（11）

μi为公式（3）计算出的n笔历史贷款加权平均数，即贷款i的收益率。

3. 投资组合最优化的决策模型。投资者对P2P网贷平台上的贷款进行投资时，不仅需要预测并比较贷款发生逾期的概率和收益率，还需要将投资额分散至不同的贷款以实现收益率和风险的最优化组合。所以，投资者在P2P网贷平台上选取合适贷款进行投资的问题实质为投资组合最优化问题，目的是在一定收益率下最小化投资组合的风险。

∑iλiσi2（12）

s.t.λi0，∑iλi=1，μ*=∑iλiμi（13）

μ*为投资者的期望收益率。λi表示投资者对第i笔贷款的投资额占总投资额M的比例，λi0。P2P网贷平台规定投资者单笔投资的最小金额为a。同时，投资者对第i笔贷款的投资不能超过贷款需求金额ei。即：

aλiMeiλi=0 otherwise（14）

（三）投资组合最优化的决策过程分析

投资组合最优化过程需要两个数据集和三个参数。两个数据集指训练数据集H和检验数据集I。三个参数指最小投资额a、投资者投资总额M、预期收益率μ*。在对数据的初步处理中，可得出训练数据集H的样本容量n，单笔贷款的收益率μj。具体过程如下：

（1）根据数据集H，通过逻辑回归法得出贷款发生逾期的概率p的解释方程。

（2）i=11+e-（0+1X1i+2x2i+…+pxpi）[] ，通过该公式，估计检验数据集I中的贷款i发生逾期的概率。

（3）通过核回归计算出最优带宽值h。

（4）计算贷款间发生逾期的概率的距离dij。

（5）通过核回归计算权重wij。

（6）计算出贷款i的收益率μi和风险水平σi2。

（7）构建投资组合，计算出每笔贷款的投资比重λi。

三、实证结果分析

（一）网站描述及数据选取

本文选取人人贷2015年散标交易数据作为本实证研究的数据集。人人贷网站成立于2010年5月，投资者最小单笔投资额为50元。2015年人人贷平台处理了超过40万笔贷款申请，共成交了115 071笔贷款，成交金额为7 518 323 100元，其中逾期贷款占比不足1%。本文选取的数据集包括借款者的信用评分（由人人贷平台测算）、贷款金额、该借款者在过去六个月中申请贷款的次数、借款者的负债—月收入比和借款者的房产拥有情况。将2015年1月至2015年11月的数据设为训练数据集H，2015年12月的数据设为检验数据集I。

（二）实例模型和评级模型的对比分析

评级模型根据风险不同将贷款分为七个等级（AA、A、B、C、D、E、HR），每个等级的贷款风险水平和收益率相同。实例模型通过贷款间逾期的概率的相似度预测新贷款的收益率和风险水平。为了验证实例模型是否能够更准确地估计新贷款的收益率和风险，对两个模型进行以下对比分析：（1）比较两个模型的解释能力，即比较两个模型的R2和欧几里得距离；（2）比较通过实例模型和评级模型构建的最优化的投资组合的收益率水平。

（三）实证结果

1. 实例模型和评级模型的解释能力。分别采用实例模型和评级模型估计数据集I中每笔贷款的收益率μi和风险σi2，计算欧几里得距离和R2，结果如表1所示，实例模型的R2大于评级模型的R2，实例模型的欧几里得距离小于评级模型的欧几里得距离。相较于评级模型，实例模型解释能力强，对收益率的预测精确度较高。

2.实例模型对投资组合决策的优化。将数据随机分为5个小组，分别计算根据实例模型和评级模型构建的最优化投资组合的收益率和夏普比率。假设投资总额M=15 000元，预期收益率为μ*=11%，无风险收益率为三年期国债利率2.5%。从表2可看出，虽然在第5组数据中，通过评级模型构建的投资组合收益率略高于通过实例模型构建的投资组合的收益率，但整体来说，实例模型的表现优于评级模型。根据实例模型预测收益率和风险，得出的最优投资组合的实际收益率的平均值高于评级模型，标准差较小，夏普比率明显较大。说明实例模型预测精确度较高，能更好地帮助投资人进行投资组合决策。

为了验证实例模型在不同参数组合下的表现，本文设置了10组不同的参数，参数组包含不同的投资总金额M和预期收益率μ*，第10组为前9组的平均值，如表3所示，无风险收益率仍为三年期国债利率2.5%。

在这十组不同参数下，测算分别根据实例模型和评级模型构建投资组合的收益率，结果如图2所示。在这十组参数下，根据实例模型构建的投资组合收益率均高于通过评级模型构建的投资组合的收益率。

总的来说，实证研究表明，实例模型在预测贷款的收益率和风险方面精确度较高。从而通过最优化方式构建投资组合时，得出的投资组合的收益率水平高于通过评级模型构建的投资组合的收益率水平。

四、结论

针对P2P网络借贷中的投资组合决策问题，本文提出了将投资者在P2P网络借贷平台上的投资组合决策视为一定收益率下的风险最小化的问题，采用实例模型，估计新贷款的风险水平和收益率，构建投资组合最优化方程组；将相似度量化为历史贷款和新贷款发生逾期概率的距离，根据平台历史交易信息，采用逻辑回归法估计历史贷款和新贷款发生逾期的概率，计算出二者发生预期的概率的距离，并通过核回归确定每笔历史贷款在新贷款收益率预测中所占的相对权重，估计出新贷款的收益率，新贷款的风险水平近似量化为历史贷款收益率的方差；投资者根据预测结果确定投资组合的预期收益率，在一定期望收益率下最小化风险，得出最优投资组合。基于人人贷2015年散标交易数据进行实证研究验证了实例模型有两方面的优势：第一，与传统评级模型不同，实例模型考虑了每笔历史贷款的不同，将历史贷款根据不同的相似度赋予不同的相对权重估计新贷款的情况，而评级模型只是将历史贷款进行简单分级，忽略了同级贷款的差异性，所以实例模型所估计出的收益率和风险精确度更高，从而根据实例模型构建的最优投资组合的收益率较高；第二，实例模型根据历史贷款发生逾期的可能性来判断贷款的相似度，贷款发生逾期的概率可通过逻辑回归测算得出，不需知道该借款者过去贷款的详细交易信息及具体偿还情况，对数据的要求低，投资者可通过网站提供的历史交易数据估计新贷款的收益率及风险，构建最优投资组合。

实证研究结果表明，相较于评级模型，实例模型可更有效地帮助投资者预测新贷款的收益率及风险，进而做出投资组合最优化的决策。

参考文献：

[1] Berger S. & Gleisner F. Emergence of financial intermediaries in electronic markets： the case of online P2P lending[J].Business Research， 2009， 2（1）.

[2] 张正平，胡夏露. 网络借贷平台的发展：文献述评[J].华东经济管理，2013（9）.

[3] 陈冬宇. 基于社会认知理论的P2P网络放贷交易信任研究[J].南开管理评论，2014，17（3）.

[4] 郭艳红，刘伟，雒春雨. 在线网络借贷投资决策模型及实证研究[J].运筹与管理，2016（4）.

[5] 徐喆. 逻辑回归模型在互联网金融P2P业务信用风险的应用[J].统计科学与实践，2015（11）.

[6] Puro L.， Teith， J.E.， Wallenius. Borrower decision aid for people-to-people lending [J].Decision Support Systems， 2009， 49（1）.

[7] Zhang & Shi. Credit risk evaluation using multi-criteria optimization classifier with Kernel， fuzzification and penalty factors [J].European Journal of Operational Research， 2014（237）.

[8] Guo & Luo. Instance-based credit risk assessment for investment decisions in P2P lending [J].European Journal of Operational Research， 2016（249）.

[9] Nadaraya & E. A. On non-parametric estimates of density functions and regression curves [J].Theory of Probability & Its Applications， 1965（10）.

[10]Clark. A calibration curve for radiation dates [J].Antiquity， 1975（49）.

[11]Silverman. Density estimation for statistics and data analysis[M].Chapman & Hall， 1986.

Abstract：In P2P lending， how to realize the optimal combination of income and risk is the core issue of investor concern. In this paper， the optimization of investment portfolio optimization is transformed into a risk minimization problem under a certain expected rate of return. The kernel regression is used to describe the similarity between historical loan and new loan， to construct an instance model based on similarity， and support the optimization decision of investor to make the investment portfolio. The feasibility of the example model is empirically studied by taking 2015 data of Chinese online network lending platform Renrendai as a sample. Result shows example model shows good forecasting ability， and it is helpful for the investors to make the optimal decision of the investment portfolio of P2P lending platform.

Key words：P2P lending； instance-based model； investment portfolio； optimization

（责任编辑：严元）