一种集成构造性分类学习方法

2015-08-27 09:39赵莎莎
关键词:训练样本类别分类器

李 萍,赵莎莎

(阜阳师范学院信息工程学院,安徽 阜阳 236041)

一种集成构造性分类学习方法

李 萍,赵莎莎

(阜阳师范学院信息工程学院,安徽 阜阳 236041)

构造性学习算法训练分类器对有些样本会有“拒认状态”,构造性学习算法中对这一状况的处理使用就近原则,然而,这种方法通常不能给出“拒认状态”样本的正确类别。提出了一种集成构造性分类方法,在测试阶段,通过多个分类器的最终打分,对“拒认状态”样本进行分类标记。同时,选取UCI数据集进行实验,结果表明,与CML算法相比,该方法的分类更为有效。

构造性机器学习;集成学习;覆盖算法

构造性分类方法通过对样本集C进行学习,求出一组领域簇,使这些领域簇把不同类别的样本点分隔开来[1]。这种方法比较容易确定网络结构同时这种方法还能高效地处理多类别问题[2]。然而,在分类器学习阶段,只考虑了已标记样本的数据特点忽略了测试样本的空间位置,从而导致在测试阶段对未标记样本进行标记时可能会出现“拒认状态”。集成学习是一种正在迅速发展的机器学习范式,它的主要思想是使用多个学习器来解决分类问题,该方法在提高学习系统的泛化能力方面效果显著。

1 覆盖算法

覆盖算法是由张铃等人提出的一种构造性的机器学习算法,该方法利用训练样本自身的数据信息特点寻找覆盖簇,也可看成是设计神经网络,从而构造出分类器[1]。该算法首先把包括训练样本和测试样本在内的所有样本都投影到n维超球面n S 上,设表示超平面,表示H的正半空间,称正半空间与超球面的所交的球形领域为一个覆盖领域。训练k种不同类别的训练样本集即是已标记样本集的覆盖簇,使得每个覆盖领域只覆盖住相同类别的训练样本点且。假设已求得一组覆盖簇包括n个覆盖分别记为,接着就可以建立含有三层的神经网络,把n个覆盖看成是n个神经元作为隐层,输出层取k个神经元,即是k种不同的类别[1-2],第i个神经元的输入,是把第i个类别覆盖住的覆盖领域的输出。

覆盖算法步骤:

输入:训练样本集C,即已标记样本集

(2)类别号 1= i;

(3.2)计算

利用覆盖算法在对测试样本进行标记时按照就近原则进行,对于“拒认状态”样本也是按照就近原则,通过计算到各个覆盖领域的距离,找出距离“拒认状态”样本最近的覆盖领域,并把它标记成与该覆盖的类别相同。由于在寻找覆盖簇时,初始的中心样本的是随机选取的,因此,每次训练的分类器会有差别,对于状态不是很稳定的“拒认样本”来说,标记会存在误差,从而影响分类器的最终效率。

2 集成构造性分类学习方法

本文根据Boosting的集成思想,改变训练样本集,构造不同分类器,在对“拒认状态”样本进行标记时,利用分类器进行集成学习,确定“拒认状态”样本的最终类别。

针对“拒认状态”样本的一种集成构造性分类学习算法:

输入:已标记样本集L,覆盖算法

输出:集成预测模型

(2)计算每个样本的采样概率:

(3)把带有权重分布的已标记样本集作为训练样本集,用覆盖算法进行学习,得到估计;

3 实验结果及分析

从UCI中选了7数据集作为实验对象如下表1所示,对于每一组数据集,我们选出75%作为已标记样本,即训练样本,剩下的作为测试样本。

表1 两种算法分类正确率比较(%)

采用本文提出的本文提出的一种集成构造性分类学习方法和采用构造性分类学习方法得出的分类正确率比较结果如表1所示。从表中可以看出,应用一种集成构造性分类学习方法相对于构造性学习方法的分类效果得到了普遍提高。

4 结束语

本文给出了一种集成构造性分类学习方法,并应用到UCI数据中,结果表明该方法能够有效提高分类率。但是,该算法仍有不足之处,对某些数据集的分类正确率提高的不明显。有待继续对“拒认状态”样本进行研究。

[1]张铃,张钹.多层前向网络的交叉覆盖算法[J].软件学报,1999(7):737-742.

[2]王伦文,张铃.构造性神经网络综述[J].模式识别与人工智能,2008(1):49-55.

A Ensemble Learning Method of Constructive Classification

LI Ping,ZHAO Sha-sha
(College of Information Engineering,Fuyang Teachers' College,Fuyang Anhui 236041)

Constructive learning algorithm for training classifier for some samples there will be a"state". This paper puts forward an integrated structural classification method,the test stage,final score by the multiple classifiers,classifying"refusal to recognize status"sample tags.At the same time,we do experiments on UCI data sets,the results show that compared with CML algorithm,the classification of the method is more effective.

Constructive Machine Learning;Ensemble Learning;Covering

O1-0

A

10.3969/j.issn.1672-7304.2015.04.059

1672-7304(2015)04-0122-02

(责任编辑:黄 密)

李萍(1985-),女,安徽阜阳人,讲师,研究方向:智能计算及其应用。

猜你喜欢
训练样本类别分类器
人工智能
壮字喃字同形字的三种类别及简要分析
基于实例的强分类器快速集成方法
宽带光谱成像系统最优训练样本选择方法研究
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法
服务类别
多类别复合资源的空间匹配