支持向量机多分类技术研究

2019-07-20 08:21戴月明
数字通信世界 2019年6期
关键词:层次结构分类器类别

沈 洋,戴月明

(江南大学物联网工程学院,无锡 214122)

1 引言

随着人工智能技术的兴起,各个领域都开始加入到利用智能技术改善生产、生活的潮流中来,比如通过智能监控系统可以自主监控各个交通路口的路况,通过人脸识别系统可以更高效的进行身份鉴别等等。而作为人工智能领域的核心算法,支持向量机自然也受到了广泛的关注与研究。

2 支持向量机的原理

支持向量机是一种基于统计学习理论的机器学习算法,它主要利用一个超平面将特征空间中两个类别的样本区分开。从性质上,它主要分为线性可分支持向量机、线性支持向量机以及非线性支持向量机。线性可分支持向量机指的是假设空间中的样本是线性可分的两类数据,通过一个平面就可以进行区分。线性支持向量机指的是空间中的样本是近似线性可分的,即有个别样本难以区分,这时通过引入惩罚系数可以将问题转化为线性可分的。而非线性支持向量机是指线性完全不可分,必须引入核函数将空间转换才行。

图1 支持向量机原理图

3 支持向量机多分类算法介绍

支持向量机多分类算法[1]一般分为四种:一对多多分类、一对一多分类、有向无环图多分类、二叉树多分类,详细介绍如下所示。

3.1 一对一多分类器

一对一多分类算法是指将所有类别两两配对训练一个分类器,因此,针对于一个k类别的多分类问题,一般要训练k(k-1)/2个分类器。一对一方法相较于其它多分类方法的优点是,思路非常简单,而且易于操作。每个二类分类器的学习只需要正负两个类的样本,训练量不大。而且由于每次训练的正负样本是两个类别,样本数量大致相等,所以避免了由于训练样本的不均衡对于分类准确率的影响。缺点是每次训练需要训练k(k-1)/2个分类器,所以当数据集的类别很多时,要构造的二分类器数目会成几何倍增长,这会给最终的训练时间造成很大的负担。而且由于最终类别的选取采用的是投票机制,会出现多个类别的票数相等而无法区分的情况。

3.2 一对多多分类器

一对多多分类算法是指将每个类别作为正类别,其它类别作为负类别训练分类器,因此针对一个k类别问题,一般需要训练k个分类器。一对多算法由于每次分类只需要经过k个分类器,因此,分类的速度相对较快。但是,它训练每个二类分类器时,都要用到数据集中所有的样本,因此计算量比较大,导致最后的训练时间远超其他多分类方法。另外,它采用其中一个类别的样本作为正样本,剩下所有类别的样本作为负样本就使得正负样本的数据量相差比较大,极其容易因为双方样本的不均衡造成最终分类准确率的下降,尤其是当类别的总数很多时。而且一对其余多分类方法有着和一对一多分类方法同样的一个问题—据分。

3.3 有向无环图多分类器

有向无环图多分类算法是指将有向无环图结构与二分类器结合起来,利用层次结构的便捷性大大缩短分类的时间。相比于上述的一对一与一对多,该算法由于采用了层次结构,所以克服了支持向量机多分类器存在的不可分的问题,因为它最终总会走到一个叶结点。另外,由于训练阶段采用了与一对一相同的训练方式,不会出现大量的样本不均衡的问题,使得它的准确率得到了保障,而且相比于上述两种结构,它每次分类只需要使用k-1个分类器,大大缩短了训练与分类的时间。但是,该算法存在两个比较大的问题,一是每次多分类器训练要训练k(k-1)/2个二分类器,当数据集的类别比较多时,这会耗费大量的训练时间。二是该算法存在的误差累积的问题,由于采用了层次结构,使得处于根节点附近的二类分类器相比于距离根节点较远的分类器产生更大的影响,它们一旦分类错误,那么下面一切的工作都是徒劳。另外,相同的训练数据集,采用不同的节点排列方式,最终分类器的准确率也会有较大的不同,这说明有向无环图算法的稳定性还有待加强。

3.4 二叉树多分类器

二叉树[2]多分类算法是指将二类分类器放置到树结构中,组成多分类算法。它的优点是通过层次结构大大缩短了分类的时间,而且解决了不可分的问题。缺点是准确率较低,尤其是当层次结构的层数较高时,另外还存在一定的误差累计问题。一对一与一对多分类方法思路简单,常用于类别不是特别多的简单分类问题;而有向无环图[3]与二叉树结构适用于类别数目适中的问题,档类别数目较多时,由于层次结构可能会出现误差累积的问题。

4 结束语

本文对于支持向量机的原理进行了阐述,而且对于常用的几种多分类算法进行了简要的介绍,分析了它们的优点与缺点,并总结了它们的使用场景,对于人们对人工智能技术的了解有一定的帮助。

实验现象:在pH4.4的酸雨侵袭下,洋葱鳞片叶外表皮细胞紫色迅速褪去,用红墨水染色后,细胞核着上红色。在pH5.0的酸雨侵袭下,洋葱鳞片叶外表皮细胞紫色缓慢褪去,用红墨水染色后,细胞核未着上红色。

猜你喜欢
层次结构分类器类别
壮字喃字同形字的三种类别及简要分析
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
基于层次分析法的电子设备结构方案评价研究
基于部件替换的三维模型生成方法
西夏刻本中小装饰的类别及流变
基于计算机防火墙防护技术探究分析
配网自动化通信系统相关问题研究
多类别复合资源的空间匹配
基于层次化分类器的遥感图像飞机目标检测