基于支持向量机的颅骨性别识别

2019-02-25 13:14刘晓宁
计算机技术与发展 2019年2期
关键词:颅骨分类器样本

杨 稳,刘晓宁,朱 菲

(西北大学 信息科学与技术学院,陕西 西安 710127)

1 概 述

骨骼遗骸的性别决定是法医人类学鉴定过程中的重要一步。人类学家研究表明,在人体骨骼中,颅骨是最能体现性别差异的骨骼之一[1]。在传统方法[2-5]中,应用最普遍的是线性判别分析方法。在对颅骨进行实体测量的基础上,Ramamoorthy等针对南印度70个成人颅骨样本,测量了26项特征指标,利用SPSS建立判别函数进行分析,单变量、逐步和多变量判别函数的准确率分别为77.1%、85.7%和72.9%;李明等对国内西南地区67个性别明确的成人颅骨测量了颅长、颅宽等16项指标,建立单变量及多变量性别判定方程,得到的男性判别准确率为89.2%,女性判别准确率为90.0%。随着计算机技术的飞速发展,研究者开始借助计算机对颅骨特征指标进行测量,因此计算机辅助测量成为趋势。

Tanya等对50名成人颅骨数字侧位X线片使用Sidexis XG软件测量上颌窦,计算上颌窦指数进行判别函数分析,并推导判别性别的判别式,得出的判别函数分析能够区分性别,其敏感性为68%,特异性为76%。线性判别分析方法虽然简单,但是该方法需要严格的假设前提,且不同地区、不同人种的颅骨的特征指标具有明显的差异,而且测量工作繁琐,准确率也不够高。

目前有很多学者[6-8]在研究中发现,选取合适的分类器在性别识别过程中具有重要作用。Afrianty等对91例人类骶骨测量了6项特征指标,将其作为反向传播网络的输入,分别用两种网络架构进行实验,识别准确率达到99.03%,并与传统的判别函数分析方法进行了对比,反向传播神经网络的性别识别率明显高于判别函数分析方法,但该方法对数据集的要求高,如何选取合适的样本实例作为训练集是个难题;随着三维数字化技术的发展,Luo等提出一种基于稀疏主成分分析将颅骨的局部形态特征与性别分类相关联的自动方法,对208例中国成人颅骨进行实验,结果显示SPCA对颅骨性别识别非常有效,识别率达95%以上,但该方法对颅骨样本完整性要求高,颅骨必须具有局部特征,局部信息影响识别结果。

基于上述分析,文中提出一种基于支持向量机的颅骨性别识别方法。该方法结合法医人类学和颅骨解剖学知识,标定自定义颅骨特征点集;利用Fourier变换对额骨和鼻根形态进行量化表示,用自主开发的计算机测量系统完成对颅骨可测量特征的测量,将非可测量特征和可测量特征融合;对上述步骤中得到的特征向量进行降维,采用支持向量机(support vector machine,SVM)设计分类器进行颅骨性别鉴定。算法流程如图1所示。

图1 算法流程

2 颅骨特征提取

2.1 特征点定义与标定

以西门子多排螺旋CT机采集的新疆吐鲁番地区267例维族成人颅骨数据为研究对象,随机选取性别明确、无颅病理的117例完整颅骨数据L={L1,L2,…,Ln},n=117作为实验对象,其中L数据中男性60例、女性57例,男性和女性的年龄均值分别为46.95和47.7,标准差分别为6.58和4.39。

利用项目组自主开发的系统对颅骨CT数据进行重构,得到三维数字化颅骨模型,将模型转换到法兰克福坐标系下并进行归一化处理,然后进行颅骨特征点的标定。很多学者对颅骨特征点的标定进行了研究,文中根据文献[9]中颅骨特征点的定义,完成了颅骨性别鉴定问题的颅骨特征点标定。对颅骨定义了78个颅骨特征点,其中正中矢状面12个,对称地分布于颅骨两侧的66个。

从117例颅骨中选取一套外观完整的模型作为标准模型,对标准模型用项目组自主开发的标定系统手动标定定义的78个颅骨特征点。其余颅骨模型利用ICP(iterative closest point)配准算法[10]使其与标准模型对齐,自动实现特征点标定。

2.2 可测量特征提取

根据法医学和颅骨解剖学知识和定义的78个特征点,并考虑计算机软件自动测量过程的要求,文中定义了27项可测量指标,其中22项几何测量指标,5项角度测量指标,通过欧几里德和测地线距离以及角度测量软件计算特征指标。

2.3 非可测量特征量化

通过阅读颅骨形态特征相关文献[11],颅骨额骨和鼻根形态等为非可测量的形态。可利用数字几何和曲线拟合方法实现形态量化,将其转化为可测量并可进行统计的三维颅骨特征。

非可测量特征额骨和鼻根是颅骨性别差异的重要区域,这里应用傅里叶变换对这两个非测量特征进行数据量化表示。首先,在额骨与鼻根区域范围内分别标定18个点,运用Matlab自带的cftool曲线拟合工具箱拟合出三维颅骨的额骨线和鼻根点凹陷曲线;其次,利用LM(Levenberg Marquardt)算法对空间曲线进行优化;最后,将三维空间曲线向二维平面XY进行投影,对投影曲线S做傅里叶变换。以曲线拟合额骨线为例,男女额骨拟合曲线向XY平面进行投影,获取投影后的额骨线如图2所示。

使用cftool曲线拟合工具箱对男女的额骨线进行曲线拟合,拟合后的男女曲线方程分别为:

y1=-8.668 5-1.438 0x-2.391 6x2-

3.986 6x3+1.061 1x4-4.098 7x5-

3.263 1x6

y2=-16.309 3-5.077 3x-7.289 4x2+

0.177 9x3-0.000 3x4+2.085 2x5-

4.652 5x6

利用文献[12]中的傅里叶变换也可对男女额骨线的形态进行量化表示,将二维曲线S的X轴划分为32份,求曲线上对应的Y值,最后计算出合成振幅作为性别鉴定的测量指标。对额骨和鼻根形态均利用Fourier变换,共获取了32个性别鉴定的测量指标。

图2 额骨线

3 支持向量机

支持向量机是一种模式分类和回归的学习算法。支持向量机的基本训练原理是寻找最优线性超平面,使未知的测试样本的预期分类误差最小化,即良好的泛化性能。根据结构风险最小化原则,一种精确分类训练数据属于一组具有最低VC维度的函数将其优化,而不管输入空间的维数如何。基于这个原则,线性SVM使用系统的方法来找到具有最低VC维的线性函数。对于线性不可分数据,SVM可以将输入映射到线性超平面的高维特征空间中。由于SVM具有很好的学习能力且能够解决小样本、非线性及高维度分类等问题[13],因此,SVM成为处理性别鉴定问题的首选分类器。另外,SVM中核函数的选取是模式识别领域的重要研究内容,分类器参数的设置是建立颅骨识别模型的关键。

3.1 支持向量分类机

给定一个标记的M个训练样本集(xi,yi),其中xi∈RN和yi∈RN(yi∈{-1,1})是相关联的。SVM分类器找到正确最大分离超平面数据点的一小部分,同时最大化任意一个类到超平面的距离。Vapnik[14]表明边距最大化等价于在构建最优超平面时最小化VC维。计算最好的超平面是一个约束优化问题,并使用二次规划技术解决。判别式超平面由水平集定义,如式1所示:

(1)

其中,k()是核函数;f(x)的符号决定了x的隶属度。构造一个最优超平面就相当于找到所有的非零值αi。对应于非零αi的任何向量xi是最优超平面的支持向量。支持向量机的理想特征是保留为支持向量的训练点的数量通常很小,因此提供了一个紧凑的分类器。

对于线性SVM,核函数只是输入空间中的简单点积,而非线性SVM中的核函数通过非线性映射函数有效地将样本投影到更高(可能无限)维度的特征空间:Φ:RN→FN,M≫N。然后在F中构造一个超平面。这种映射背后的动机是它更有可能在高维特征空间中找到线性超平面。使用Mercer定理,将样本投影到高维特征空间中所需的昂贵计算可以用满足条件的更简单的核函数来代替,如式2所示:

k(x,xi)=Φ(x)·Φ(xi)

(2)

其中,Φ(x)是低维向高维空间投影的映射函数;·表示两个函数做内积运算。

(3)

其中,C是一个常量,当C(>0)越大表示对性别判定错误的惩罚越大,越小则对性别判定错误的惩罚越小。

为了获取二次规划问题中的最佳分隔超平面,通过构建一个拉格朗日算子来实现,得到式4:

(4)

其中,αi和ri是拉格朗日乘子。

对式4将其看作是变量ω和b的函数,分别对其求偏导,得到ω和b的表达式。然后代入式4,求其极大值,最后得到:

(5)

其中,α1,α2,…,αm需满足半正定和非负约束的条件。

3.2 核函数及最优参数选择

性别判别的准确率受到核函数选取的直接影响,文中对SVM的各种核函数比较分析后选用径向基函数(radial basis function,RBF)作为颅骨特征映射的核函数。RBF能够尽可能准确地拟合颅骨数据集上的连续函数[15]。数学表达式为:

(6)

其中,xi为核函数中心;δ为核函数宽度参数,控制核函数的径向作用范围。

在性别判定的训练阶段,参数C和δ对性别鉴定的效果影响最大。参数C的改变能将分类正确的样本和分类错误的样本显著分开。C越大时分类错误率较小,但是间隔也较小,C越小时间隔较大,但是分类错误率也较大。参数δ的改变直接影响核函数的计算能力,进一步影响性别判定效果。δ越大时,可能会出现误判情况,即将训练样本或测试样本都划分到同一类别;δ越小时,容易出现过拟合现象,即能够将训练颅骨样本性别正确分类,但对测试颅骨样本的分类准确率不高,泛化能力差。因此,选取合适的参数C和δ对性别判定效果非常重要。

优化参数C和δ的常用方法有网格搜索法、遗传算法及混沌优化算法等。文中利用文献[16]中的算法来确定合适的参数C和δ。设定参数C和δ的范围,即2-5≤C≤215,2-15≤δ≤25,步长设为0.5,进而获得M个C值及N个δ值。利用构造的SVM模型对颅骨样本进行分类,获取性别识别率,根据性别识别率确定最优参数C和δ。文中利用留一交叉验证法进行测试,将全部的颅骨样本均分成N份,1份作为测试集,其余N-1份为训练集,循环N次进行测试。求解得到所有颅骨样本分类结果的均值,即对应于C和δ的精确度,重复以上步骤,最后,最优参数就是平均识别率最高时所对应的参数值。若最优分类结果仍没达到预想效果,根据分类准确率变化的趋势,重新设定C和δ的范围和步长,直到得到平均识别率最高所对应的参数组合为止。

4 实验结果与分析

实验从117个颅骨模型中选择78个颅骨(40男,38女)作为训练样本,采用径向核SVM方法建立分类模型,并用其余的39个(20男,19女)颅骨模型作为测试样本,并进行回代检验。径向核SVM的分类步骤如下:

(1)对样本数据进行归一化处理,将数据归一化到[0,1]之间;

(2)利用网格搜索和交叉验证方法寻求最优的参数对C和δ,设定网格搜索的参数为2-5≤C≤215,2-15≤δ≤25,捜索步长为0.5,可得到78个训练样本下的最优参数C=1.414 2,δ=0.5;

(3)对78个颅骨训练样本应用SVM-RFE算法,根据特征指标的权重大小对27项颅骨特征指标进行排序,选取前n个特征为特征集合,训练SVM模型,分别可得到前n维特征集合相对应的分类精度,如图3所示。

图3 特征子集数目与分类精度的关系

从图3可以看出,在训练集合上,分类精度最高可达到94.1%,当特征子集数目逐渐从1增加到9时,其训练的分类器的分类精度也从70.9%逐渐增加到94.1%;当特征子集数目逐渐从9增加到22时,分类精度在94.1%保持稳定;但是当特征子集数目从23再逐渐增加到27的过程中,分类精度开始下降,由于引入了冗余特征;最后随着特征子集数目的增加,分类器分类精度保持在91.5%。因此,选取分类精度最高且特征数目最小的前9维特征(X25、X21、X5、X19、X23、X24、X13、X2)作为颅骨的最优特征子集。

(4)根据9维最优特征子集训练SVM模型,对39例测试颅骨模型进行性别预测,其预测结果如图4所示,回代检验结果如表1所示。

图4 SVM测试样本预测结果

从图4可以看出,预测分类效果与实际分类效果存在误差。测试集中的第11、19和36个样本出现误判,分类产生了错误。

表1 SVM回代检验结果

从表中可以看出,在20个男性颅骨中有2个被误判,18个被正确分类,判定率为90.0%;在19个女性颅骨中有1个被误判,18个被正确分类,判定率为94.7%。男女判定的平均准确率为92.4%。

5 结束语

针对传统性别识别过程中需要专家参与且依赖于人的主观经验导致分类精度低的问题,提出了一种基于支持向量机的颅骨性别识别方法。根据先验知识和自主开发的系统半自动实现颅骨特征点的定义标定;提取颅骨的可测量特征和非可测量特征,将非可测量特征量化,利用计算机软件测量特征指标;利用SVM对特征向量降维并设计分类器,通过网格搜索算法优化参数,得到最佳分类器,实现对目标样本的有效分类。实验结果表明,该方法能够取得较高的分类正确率。由于是首次利用颅骨对象完成维吾尔族颅骨性别识别的研究,所以样本较少,但是方法客观不依赖主观经验,可以为实际应用提供参考依据。下一步将继续对维吾尔族颅骨性别识别进行研究,增加颅骨样本并进一步提高分类精度,为法医人类学、刑侦等领域的实际应用提供更为可靠的参考。

猜你喜欢
颅骨分类器样本
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
关于小儿颅骨缺损修补的认识
When weird weather strikes 当怪天气来临时
基于朴素Bayes组合的简易集成分类器①
一种自适应子融合集成多分类器方法
规划·样本
人大专题询问之“方城样本”
随机微分方程的样本Lyapunov二次型估计
More gum disease today than 2,000 years ago