基于BP 神经网络的林木资源资产批量评估模型优化

2014-12-14 02:50郑世跃欧阳勋志郭孝玉
江西农业大学学报 2014年5期
关键词:批量敏感性神经网络

吕 丹,郑世跃,欧阳勋志*,郭孝玉

(1.江西农业大学 林学院,江西 南昌 330045;2.江西省兴国县林业局,江西 兴国 342400)

森林资源资产的批量评估是指以森林资源资产特征数据、市场信息作为自变量,带入已建立的评估模型,即可快速获得大量资产个体价值的评估技术[1],该技术适用于大量小宗资产评估业务。随着我国集体林权制度改革的不断深入,以大量散户林农为主体的评估业务迅速扩大[2],以抵押贷款为目的的评估业务不断增多,待评估森林资源资产面积不断增长。森林资源资产批量评估基于成本法、收益现值法、市场法3 大传统方法搭建评估体系,不仅可以对小班进行资产评估,也可以对林班、林区尺度上的森林资源进行资产评估,它将评估者从繁复的计算工作中解脱出来,具有效率高、费用低等优点,可满足大范围森林资源资产批量评估的要求。

批量评估技术在不动产评估中运用比较成熟[3-5],而在森林资源资产评估应用方面的研究尚不足,主要集中于森林资源资产批量评估的基本假设、价值类型以及技术路径[6],批量评估方法有多元线性回归法[2]、BP 神经网络法[7]等。在其不同批量评估方法精度方面,有关研究表明,非线性回归的BP 神经网络法比多元线性回归法精度更高[8-10],因此在处理分类、拟合等问题时,BP 神经网络越来越受到研究者的青睐。目前,基于BP 神经网络的森林资源资产批量评估研究中,建模要素的选择多停留于经验层面,缺乏对模型结构的深入研究。本文以中龄林林木资源资产为研究对象,比较不同的学习算法、输入层因子、隐含层节点数对BP 神经网络精度的影响,筛选出林木资产评估最优BP 神经网络模型。

1 材料与方法

1.1 数据获取

以江西省兴国县2009 年森林资源二类调查数据库为基础数据,从中筛选出起源为人工林,经营类型为一般用材林,龄组为中龄林的杉木(Cunninghamia lanceolata)、马尾松(Pinus massoniana)、阔叶纯林样本,剔除其中大于(或小于)三倍均方误差的样本,最后采用随机抽样法抽取出84 个小班样本。调查收集当地的营林成本、木材销售价格及销售成本等因子。考虑到利率是影响评估值计算的重大因素,按3 种利率水平(4.5%,5.5%,6.5%),采用传统中龄林林木资源资产评估法—收益现值法[11]计算小班林木资源资产评估值。小班林木资源资产评估值和小班调查因子形成252 个样本,其中,用于模型训练的样本222 个,检验样本30 个。

1.2 模型优化

1.2.1 BP 神经网络 BP 神经网络采用误差反向传播学习规则,其结构通常包括一个输入层、一个或多个隐含层和输出层,如图1 所示。输出层结果由输入层、隐含层以及连接权值和阈值决定。连接权值和阈值按照一定的规则调整,调整规则称为神经网络的学习算法。因此,BP 神经学习算法、网络的输入层、隐含层对模型输出精度影响较大[12],模型其他参数包括网络传递函数、训练性能函数、学习速率、网络目标误差。

图1 BP 神经网络结构Fig.1 Structure of BP neural network

1.2.2 模型结构优化 学习算法确定。L-M(Leven berg-Marquand)算法[13]是原始BP 学习算法和高斯-牛顿算法的结合,具有局部收敛性和全局性,收敛速度快,运用最为广泛[14]。L-M 算法按式(1)修正网络权值,网络训练性能描述MSE,对应训练函数Trainlm;贝叶斯正则化法[15]是基于L-M 算法的改进式,网络训练性能描述SSE 加入了权值平方和项,降低了误差的震荡幅度,网络输出更加稳定,对应训练函数Trainbr。

式中:J 是对网络权值一阶导的雅克比矩阵;ε 网络拟合误差,n 为样本个数;λ、γ 为超参数,EW为网络权值平方和,ED=∑ε。

输入层优化。敏感性分析不仅可以比较各因子对评估值的影响程度,而且也是输入层因子筛选的重要途径[16],敏感性系数定量表达自变量对应变量的影响程度,敏感性系数越大,说明该自变量对应变量的影响程度越大。采用Garson 算法改进式计算敏感性系数[17]:

式中,w 为输入层与隐含层的连接权值矩阵,v 为隐含层与输出层的连接权值矩阵,Sn表示输入层第n 个因子对输出层即评估值的敏感性系数。由于研究对象为中龄林,采用收益现值法评估其资产价值,首先是将收益现值法涉及的计算因子及树种(树种对出材率和销售价格等影响较大)等进行方差分析。然后筛选出与评估值呈显著相关(p<0.05)的11 个因子作为输入层备选因子,包括年龄、蓄积、规格材出材率、非规格材出材率、规格材销售价格、非规格材销售价格、销售成本、主伐年龄、营林成本、利率。计算上述11 个因子的敏感性系数,逐一剔除敏感性系数最小的因子,比较模型精度,最后筛选出模型精度达到最高时的输入层。

隐含层节点数确定。隐含层节点数过少出现欠拟合现象,网络拟合精度低;节点数过多使得拟合复杂,增加网络负担,且容易出现过拟合现象。根据经验式+a(N 为输入层节点数、M 为输出层节点数,a 为1~10 之间的常数)[18],通过尝试法比较模型精度确定L。

网络目标误差goal=0.001,其他未交待参数为网络默认设置。模型建立通过软件MATLAB 7.8.0 完成。

1.3 模型精度

除网络训练性能描述MSE 和SSE 外,采用平均绝对误差MAE、平均相对误差MAPE、决定系数R2指标评价网络的预测能力。

公式(5)、(6)、(7)中,N 是预测样本的数量,yi是样本评估值是样本预测值。

2 结果与分析

2.1 建模结果

2.1.1 学习算法确定 网络输入层神经元为11 个备选因子,隐含层节点数为4、5、6、7、8、9、10、11、12、13,比较L-M 算法(Trainlm)和贝叶斯正则化法(Trainbr)对网络输出的影响,每个模型运行20 次。对比不同学习算法下预测样本的平均绝对误差,结果表明,两种学习算法下模型在500 步以内均达到收敛。由图2 可以看出,在输入层、隐含层一致的情况下,采用贝叶斯正则化法模型检验样本平均绝对误差MAE 小于L-M 算法,说明贝叶斯正则化法可以达到更高的预测精度,而且在隐含层节点变化的过程中,贝叶斯正则化法的模型输出变幅更小,输出更加稳定。因此选择贝叶斯正则化法作为模型学习算法。模型记为BRN-L-1。

图2 不同学习算法下模型精度比较Fig.2 Comparison between accuracies of different learning algorithm

2.1.2 敏感性分析及输入层神经元优化 比较学习算法优劣时发现,贝叶斯正则化法下,当隐含层节点数为12 时,网络MAE 达到最小,为35.55 元/hm2。因此确定敏感性分析模型结构为11-12-1,学习算法为贝叶斯正则化法,提取该网络的权值矩阵,计算输入层11 个因子的敏感性系数。计算结果见表1。

表1 因子敏感性系数Tab.1 Factors sensitive coefficient

由式(4)得出11 个因子的敏感性系数之和为1,其中,年龄、利率、蓄积、树种对评估值影响较大,属于强敏感性因子,其他因子敏感性系数为0.05 左右,属于弱敏感性因子。对评估值贡献率最大的因子是年龄,敏感性系数达到0.265 2,年龄的强敏感性一方面因自身对评估值的影响,另一方面与其他因子间存在较密切的关系。年龄和主伐年龄共同决定了评估收益折现时间,而且影响蓄积,一般来说年龄与蓄积呈正相关关系,而蓄积是决定林木资源资产价值最直接因素,因此年龄对评估值的影响最大。利率的敏感性系数为0.163 8,对评估值影响程度排第二,评估规模的扩大还会放大利率对评估值的影响,容易出现因利率的取值偏差而产生“差之毫厘,谬以千里”的评估结果。树种虽然没有直接参与评估值的计算,但是树种决定了主伐年龄、销售价格、出材率、销售成本(含各项税费),其敏感性系数为0.098 8。由敏感性分析结果表明,BP 神经网络模型能够准确地侦测年龄、树种与其他影响因子之间的相关关系信息。

表2 不同输入层模型精度比较Tab.2 Comparison between accuracies of different input layer

逐一剔除敏感性系数最小的因子,由式(5)、(6)计算得出不同输入层情况下模型的MAE、MAPE,比较模型精度,结果见表2。

随着输入层因子的变化,模型训练性能指标SSE 与预测能力指标MAE、MAPE 发生变化。当剔除因子为非规格材出材率、营林成本时,SSE=0.000 9,MAE=32.46 元/hm2,MAPE=1.28%,均达到最小值,模型总体精度最高。此后,随着因子剔除数量的增加,模型精度逐渐降低。因此,经筛选的网络输入层因子为年龄、利率、蓄积、树种、主伐年龄、规格材销售价格、非规格材销售价格、销售成本、规格材出材率,节点数N=9。模型记为BR 9-L-1。

2.2 模型精度验证

用预留的30 个检验样本验证模型。评估值与模型预测值之间的拟合关系如图4 所示。经过训练的模型,拟合性能SSE=0.000 941<goal(0.001),MAE 为32.46 元/hm2,MAPE 为1.28%,预测值与评估值之间呈显著线性相关关系,由式(7)计算得决定系数R2=0.999 7。说明BP 模型BR 9-10-1 预测精度高,泛化能力强,可以满足中龄林林木资产的批量评估要求。

图3 不同隐含层节点数模型精度比较Fig.3 Comparison between accuracies of different assessed numbers of hidden layer nodes

图4 评估值与模型预测值的相关关系Fig.4 Relationship between value and predicted value

3 讨论

通过比较L-M 算法和贝叶斯正则化法,发现贝叶斯正则化法由于拟合误差SSE 加入了权值平方和,因而精度高,输出稳定,优于L-M 算法,此结果与郭孝玉[20]、车少辉[19]的研究结果相一致。

基于神经元连接权值的敏感性分析可弥补神经网络输入对输出可理解性低的不足,也是输入层因子筛选的有效手段。BP 神经网络通过权值调整能够有效地侦测到输入因子之间的相关关系。对影响因子的敏感性分析表明,年龄、利率、蓄积、树种为强影响因子,有效验证了年龄、蓄积、树种是客观反映林木资源质量的重要因子,也佐证了“利率的高低对评估值影响重大”[21];同时,按敏感性系数由小到大逐一剔除弱敏感性因子,可筛选出最合理的输入层因子,模型的误差随着输入层因子多少而发生变化。

隐含层节点数对模型精度的影响较大,其确定方法较多。郑德祥[7]、刘学伟[22]主张隐含层节点数为输入层节点与输出层节点数之和,本研究中采用经验式+a,通过不同隐含层节点数模型输出结果精度的比较,发现隐含层节点数恰好为输入层与输出层节点数之和时模型精度最高,但该方法是否普适需要通过扩大研究对象范围进一步验证。

本文基于BP 神经网络优化了中龄林林木资源资产批量评估模型,但是林木资源资产的资源可再生性、经营长周期性、效益的多样性以及核查的艰巨性等特点,增加了林木资源调查的复杂性和不确定性,评估结果存在较大的时空异质性。批量评估模型的建立是根据被评估资产与其特定的评估环境(如森林起源、经营方式、年龄等因素)选择适用的基本方法和理论作为评估模型设定依据,因此,本研究结果的优化模型BR 9-10-1 适用于本研究区中的一般经营类型的人工林林木资源资产的批量评估,虽然模型平均绝对误差为32.46 元/hm2,精度较高,但随着评估面积的扩大,误差也将被放大。所以,该模型主要适用于以抵押担保等不发生直接的现金交易为目的的大量林木资源资产评估,如抵押担保贷款、资产清算等。至于在其它自然环境及市场区域或评估目的的中龄林林木资源资产评估应进行建模相关参数修正。

[1]赖晓燕,王霞.基于多元回归分析的森林资源资产批量评估模型研究[J].福建电脑,2009,25(11):1-2.

[2]胡敏荣,孟全省.多元回归分析法下森林资源资产批量评估模型研究——陕西省宁陕县实证案例[J].林业经济,2010,8:61-65.

[3]纪益成,王诚军,傅传锐.国外AVM 技术在批量评估中的应用[J].税基评估,2006(3):13-17.

[4]John D Benjamin,Randall S Guttery,Sirmans C F.Mass appraisal an introduction to multiple regression analysis for real estate valuation[J].Journal of Real Estate Practice and Education,2004,7(1):65-77.

[5]耿继进,张晖.基于GIS 的房地产批量评估数据库构建研究——以深圳市为例[J].遥感技术与应用,2012,27(3):479-486.

[6]王兆君,刘降斌.森林资源资产批量评估若干理论问题研究[J].林业经济问题,2009,29(4):292-300.

[7]郑德祥,赖晓燕,廖晓丽.基于贝叶斯正则化BP 神经网络的森林资源资产批量评估研究[J].福建林学院学报,2013,33(2):132-136.

[8]甘敬,朱建刚,张国祯,等.基于BP 神经网络确立森林健康快速评价指标[J].林业科学,2007,43(12):1-7.

[9]浦瑞良,宫鹏,Yang R.应用神经网络和多元回归技术预测森林产量[J].应用生态学报,1999,10(2):129-134.

[10]吴瑞梅,吴彦红,艾施荣,等.茶叶外形品质的高光谱图像量化分析[J].江西农业大学学报,2013,35(2):413-418.

[11]陈平留,刘健,陈昌雄,等.森林资源资产评估[M].北京:高等教育出版社,2009.

[12]Zhao M C,Zheng J Q,Ling X J,et al.Improved tree crown recognition system based artificial neural network[J].Journal of Nanjing Forestry University:Natural Sciences Edition,2005,29(4):11-14.

[13]张兵,袁寿其,成立,等.基于L-M 优化算法的BP 神经网络的作物需水量预测模型[J].农业工程学报,2004,20(6):73-76.

[14]史宇,余新晓,张佳音,等.北京山区油松人工林单木材积生长量BP 神经网络模型[J].东北林业大学学报,2010,28(2):20-22.

[15]李金铭,刘荣其,宁正元.基于贝叶斯算法的森林成熟预测研究[J].厦门大学学报:自然科学版,2009,48(3):342-346.

[16]俞集辉,韦俊涛,彭光金,等.基于人工神经网络的参数灵敏度分析模型[J].计算机应用,2009,26(6):2279-2284.

[17]蔡毅,邢岩,胡丹.敏感性分析综述[J].北京师范大学学报,2008,44(1):9-16.

[18]车少辉,张建国,段爱国,等.杉木人工林胸径生长神经网络建模研究[J].西北农林科技大学学报,2012,40(3):84-92.

[20]郭孝玉,孙玉,王轶夫,等.基于改进人工神经网络的植物叶面积测定[J].农业机械学报,2013,44(2):200-204.

[21]陈平留,陈隆安.森林资产评估中的利率确定[J].林业经济,1994,6:72-75.

[22]刘学伟,贺昌政.基于贝叶斯正则化BP 神经网络的上市公司信用评价研究[J].软科学,2005,19(5):8-11.

猜你喜欢
批量敏感性神经网络
批量提交在配置分发中的应用
神经网络抑制无线通信干扰探究
钇对Mg-Zn-Y-Zr合金热裂敏感性影响
基于神经网络的拉矫机控制模型建立
AH70DB钢焊接热影响区组织及其冷裂敏感性
复数神经网络在基于WiFi的室内LBS应用
如何培养和提高新闻敏感性
在数控车床上批量钻铰孔类工件的实践
基于支持向量机回归和RBF神经网络的PID整定
微小RNA与食管癌放射敏感性的相关研究