一种计算代价敏感算法分类精度的方法

2017-04-21 05:26陆慧娟叶敏超

中国计量大学学报 2017年1期

关键词：学习机代价权值

杨磊,陆慧娟,严珂,叶敏超

(中国计量大学信息工程学院,浙江杭州 310018)

一种计算代价敏感算法分类精度的方法

杨磊,陆慧娟,严珂,叶敏超

(中国计量大学信息工程学院,浙江杭州 310018)

代价敏感普遍应用于解决分类不平衡问题,但代价敏感算法一直没有一个客观的评价标准.本文提出一种针对代价敏感算法的分类精度计算方法,以平衡精度替换总体精度来有效地评定代价敏感算法的分类性能.相比于传统的总体精度,该平衡精度不会忽略小类样本的贡献.通过代价敏感超限学习机对基因表达数据进行分类对比实验,结果表明，平衡精度可以更为客观、合理地表示代价敏感算法的分类性能.

代价敏感;平衡精度;超限学习机;基因表达数据

传统的机器学习分类算法通常假定训练集是平衡的.因此,在面对不平衡数据集时,以总体分类精度为最终目标的传统分类算法会过多地关注多数类,但在实际应用中,少数类样本被误分的代价要比多数类被误分的代价大,所以往往得不到更为可靠的分类结果[1-3].代价敏感学习(cost-sensitive learning, CSL)的引入有效的弥补了传统分类算法在不平衡数据分类方面的缺陷[4].

Chai等提出了使误分类代价和测试代价最小化的测试代价敏感贝叶斯算法[5].在此基础上,郑恩辉等提出了代价敏感支持向量机[6].之后，安春霖等将代价敏感嵌入超限学习机中并进行相异性集成,提出了代价敏感超限学习机(cost sensitive extreme learning machine, CS-ELM)[7-8].Lu等将代价敏感应用于旋转森林算法,提出了嵌入代价敏感的旋转森林算法[9],与传统的旋转森林算法相比,该算法能够在保证正确率的同时降低分类代价.杨强等研究了代价敏感机制与决策树及贝叶斯分类器的结合,以及代价敏感分类时的数据预处理问题[10-12].

但是，在代价敏感学习的发展过程中,代价敏感算法仅被当作一个协助分类的工具,用于提高传统分类器对不平衡数据的分类性能[13],其算法本身少有改进.其原因主要是，一直以来都没有一个针对代价敏感算法的评价方法,无法合理的探究算法的分类性能,自然也就无法进行合理的优化.传统的分类性能指标,如准确率、召回率、F值以及ROC曲线等,虽然可以有效地评定不平衡数据的分类情况,但是受约束于二分类问题,无法完美地应用于基因表达数据的分类.针对该问题,本文引入Cohen等[14]在分析系统状态时提出的平衡精度并加之改进,用平衡精度替换总体精度,提出一种针对代价敏感算法的分类精度计算方法.

1 代价敏感学习

代价敏感在现实中普遍存在.代价敏感学习可以弥补分类器只注重分类精度的片面性,其合理性在于通过引入代价敏感而寻求总体的最小代价,而不是单纯的精度最高.分类代价有多种类型,本文的研究主要讨论错分代价.

错分代价是由于错误分类而引起的,是对错误分类的一种惩罚,本文以二分类问题加以说明.对于一个二分类的问题,两种不同的错误所造成的代价是不一样的,定义第一类为P,第二类为N,构造代价矩阵C.

表1 代价矩阵

其中:C00(True Positive, TP)和C11(True False, TF)表示正确分类的代价值,一般为0;C01(False Positive, FP)和C10(False Negative, FN)表示错误分类的代价值,C01表示把P类分成N类的代价,C10表示把N类分成P类的代价.通常可以简单的表示为

(1)

将代价矩阵嵌入超限学习机中,用得到的CS-ELM对基因表达数据集进行分类,分类流程图如图1,分类结果如表2.

图1 基因表达数据分类流程图Figure 1 Flow chart of gene expression data classification

表2 不同基因表达数据集的分类精度

由表2可以看出,在分类算法嵌入代价敏感后,其分类的整体精度有所下降.这是因为嵌入代价敏感后的算法不再仅以精度为目标,牺牲了一部分精度以降低其整体代价值.但其实不管如何设置代价的权值,其精度都会有所下降,因此并不能通过其总体精度的降低来评判所嵌入的代价是否得当.因此,需要一个更为客观的标准来评判代价敏感算法.以此为基础,引入平衡精度概念,为代价敏感算法的分类性能进行一个有效的度量.

2 平衡精度

对一个二类分类问题,称样本数量少的那个类别为正类(positive class)或小类、少数类(minority class);反之,样本数量多的为负类(negative class)或大类、多数类(majority class).下表用混淆矩阵进行表示.

表3 二分类问题的混淆矩阵

在传统的算法中,通常所指的分类精度是总体精度(overall accuracy),即所有测试样本被正确分类的比例,其计算公式如下:

(2)

但是基因表达数据由于其数据不平衡性,即正类样本和负类样本的数量相差极大,这样计算分类精度很容易出现错误.例如,测试样本有1个正类样本,99个负类样本,分类器很可能将所有样本都分类为负类,而通过总体精度的计算方法,其分类精度为99/100=0.99,但其对正类样本的分类准确率则为0.为解决这一问题,调整精度的计算公式,修改后的平衡精度(balance accuracy)表示如下:

(3)

对于多分类问题,平衡精度的表示可以相应修正为

(4)

上式中,n表示样本的类别数,Mi(i=1,2,…,n)表示第i类样本的样本个数,TMi(i=1,2,…,n)表示第i类样本分类正确的个数.

用平衡精度再次计算上述例子,其平衡精度为1/2×(0+99/99)=0.5,平衡精度可以很清楚地标识分类算法对于不平衡数据的分类缺陷.

3 实验结果与分析

将整体精度替换为平衡精度,并嵌入CS-ELM分类器中,在Prostate,Leukemia,Lung和Colon 4个基因表达数据集上分别进行5组实验,得到的分类精度如表4.

表4 不同基因表达数据分类的平衡精度

如图2、3、4、5所示,用平衡精度作为测量标准后,传统的分类器的分类精度明显下降,而嵌入代价敏感的分类器的分类精度有所上升,可以更为直观的看出传统分类器在嵌入代价敏感后的提升,精度越高,性能越好.

图2 Prostate数据集分类的平衡精度Figure 2 Balance accuracy of Prostate data classification

图3 Leukemia数据集分类的平衡精度Figure 3 Balance accuracy of Leukemia data classification

图4 Lung数据集分类的平衡精度Figure 4 Balance accuracy of Lung data classification

图5 Colon数据集分类的平衡精度Figure 5 Balance accuracy of Colon data classification

最后,针对不同数据集,修改CS-ELM的代价权值,以从小到大的顺序设计5组试验,得到表5所示实验结果.

表5 嵌入不同代价权值后的CS-ELM分类情况

通过图6可以明显看出,嵌入不同的代价权值可以得到不同的平衡精度.对于Prostate、Leukemia和Lung数据集来说,第二组的实验结果相比其他组更优,说明第二组的代价权值设定对于这3个数据集能更好的提升分类性能.对于Colon数据集,嵌入第一组的代价权值的代价敏感算法拥有较优的分类性能,这是由于该数据集多数类和少数类数量差距较小,因此较小的代价权值更为适合该数据集.

图6 嵌入不同代价权值后的CS-ELM分类性能Figure 6 Performance of CS-ELM with different cost weights

4 结语

本文将平衡精度引入代价敏感分类,提出了一种针对代价敏感算法的分类精度计算方法.实验证明,平衡精度可以更为准确地描述基因表达数据的分类情况,因此可以用平衡精度的高低判断所使用的代价敏感算法的分类性能.以此为基础,可以寻找和设立最优的代价敏感权值等参数,以实现对代价敏感算法的优化.

[1] CHAWLA N V, JAPKOWICZ N, KOTCZ A. Editorial: special issue on learning from imbalanced data sets[J].ACM SIGKDD Explorations Newsletter,2004,6(1):1-6.

[2] 陶新民,郝思媛,张冬雪,等.不均衡数据分类算法的综述[J].重庆邮电大学学报(自然科学版),2013,25(1):101-110. TAO X M, HAO S Y, ZHANG D X, et al. Overview of classification algorithms for unbalanced data[J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition),2013,25(1):101-110.

[3] 李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014(5):1287-1291. LI Y, LIU Z D, ZHANG H J. Review on ensemble algorithms for imbalanced data classification[J].Application Research of Computers,2014(5):1287-1291.

[4] CHARLES E. The foundatins of cost-sensitive learning[C]//Proc of the 17th Int Joint Conf on Artificial Intelligence.New York: ACM,2011:973-978.

[5] CHAI X Y, DENG L, YANG Q, et al. Test-cost sensitive naive bayes classification[C]// Proc of the 4th IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE,2004:51-58.

[6] 郑恩辉,李平,宋执环.代价敏感支持向量机[J].控制与决策,2006(4):473-476. ZHENG E H, LI P, SONG Z H. Cost sensitive support vector machines[J].Control and Decision,2006(4):473-476.

[7] 安春霖,陆慧娟,郑恩辉,等.嵌入误分类代价和拒识代价的极限学习机基因表达数据分类[J].山东大学学报:工学版,2013(4):18-25. AN C L, LU H J, ZHENG E H, et al. Gene expression data classification of the extreme learning machine with misclassification cost and rejection cost [J].Journal of Shandong University: Engineering Science,2013(4):18-25.

[8] 安春霖,陆慧娟,魏莎莎,等.嵌入代价敏感的极限学习机相异性集成的基因表达数据分类[J].计算机科学,2014(12):211-215. AN C L, LU H J, WEI S S, et al. Dissimilarity based ensemble of extreme learning machine with cost-sensitive for gene expression data classification[J].Computer Science,2014(12):211-215.

[9] LU H J, YANG L, YAN K, et al. A cost-sensitive rotation forest algorithm for gene expression data classification [J].Neurocomputing,2016,228:270-276.

[10] YANG Q, LING C, CHAI X Y, et al. Test-cost sensitive classification on data with missing values[J].IEEE Transactions on Knowledge & Data Engineering,2006,18(5):626-638.

[11] PAN J F, YANG Q, YANG Y M, et al. Cost-sensitive-data preprocessing for mining customer relationship management databases[J].IEEE Intelligent Systems,2007,22(1):46-51.

[12] LING C X, SHENG V S, YANG Q. Test strategies for cost-sensitive decision trees[J].IEEE Transactions on Knowledge & Data Engineering,2006,18(8):1055-1067.

[13] LING C X, SHENG V S. A comparative study of cost-sensitive classifiers[J].Chinese Journal of Computers,2007,30(8):1203-1212.

[14] COHEN I, GOLDSZMIDT M, KELLY T, et al. Correlating instrumentation data to system states: A building block for automated diagnosis and control[C]//Conference on Symposium on Opearting Systems Design & Implementation. San Francisco: ACM,2013:231-244.

A method of classification accuracy calculation for cost sensitive algorithms

YANG Lei, LU Huijuan, YAN Ke, YE Minchao
(College of Information Engineering, China Jiliang University, Hangzhou 310018, China)

Cost sensitive algorithms are widely applied to solve the problem of unbalanced classification. However, there is no objective evaluation criteria for cost sensitive algorithms. This paper proposes a method of classification accuracy calculation for cost sensitive algorithms. Balance accuracy is utilized instead of overall accuracy to effectively assess the performance of cost sensitive algorithms. Compared with overall accuracy, the proposed balance accuracy will not neglect the contribution of samples in small classes. In the experiment, we classified gene expression data with cost sensitive extreme learning machines. The result shows the balance accuracy is a valid criterion for evaluating classification performance.

cost sensitive; balance accuracy; extreme learning machine; gene expression data

2096-2835(2017)01-0092-05

10.3969/j.issn.2096-2835.2017.01.016

2016-12-07 《中国计量大学学报》网址：zgjl.cbpt.cnki.net

国家自然科学基金资助项目(No.61272315，61602431)，浙江省自然科学基金资助项目(No.Y1110342).

杨磊(1992- )，男，山东省泰安人，硕士研究生，主要研究方向为机器学习.E-mail:499196799@qq.com 通信联系人：陆慧娟，女，教授.E-mail：hjlu@cjlu.edu.cn

TP391

一种计算代价敏感算法分类精度的方法

1 代价敏感学习

2 平衡精度

3 实验结果与分析

4 结 语

4 结语