基于贝叶斯分类器的中文文本分类

2016-12-26 12:56钟磊
电子技术与软件工程 2016年22期
关键词:文本分类遗传算法

钟磊

摘 要

在数据挖掘领域中,文本分类备受关注。本文研究了基于贝叶斯分类器的中文文本分类的相关问题,提出了一种以遗传算法为基础的朴素贝叶斯分类器,分析了分类器的设计流程和功能实现过程,验证表明,本文提出的贝叶斯分类器在中文文本分类中的应用效果良好,分类精度较高。

【关键词】贝叶斯分类器 文本分类 遗传算法

贝叶斯分类器在文本分类中有着重要的应用,其中朴素贝叶斯分类器是一种简单有效的概率分类方法。但需要注意的是,朴素贝叶斯分类器模型在实际应用的过程中往往会出现一定的问题,例如条件假设难以实现,属性约简影响分类效果等。

1 文本分类

事先定义好文本类别,以文本内容为基础,计算机根据相关自动分类算法,对文本进行预先定义好的类别划分就是文本分类。文本分类一般可以分为三个步骤,分别是文本向量模型表示、选择文本特征及分类器训练。

2 遗传算法基本思想

遗传算法是以遗传思想为基础的一种算法,一定数量的个体经过基因编码之后会组成一个种群,而遗传算法就从代表问题可能潜在解集的种群开始。

3 基于遗传算法的朴素贝叶斯分类器

本文提出了一种应用于中文文本分类的贝叶斯分类器,其以自适应遗传算法为基础,具体设计方案如下:

3.1 设计思路

(1)进行数据采样、收集、整理等预处理工作,必要时进行数据的离散化。

(2)对实体样本数据进行分类,之后将其随机划分为两个集合,分别是验证集和训练集,在训练集中生成S个子集,每一个子集的属性随机,针对每一个随机属性子集,对应的构建一个NBC。

(3)将构建的NBC作为初始种群,以上文中提到的遗传算法选择最优解,在整个遗传操作中,选择的最优解就是要求的gNBC,gNBC对应的属性集则是所需要的最优属性集。

3.2 gNBC设计

3.2.1 数据预处理

在知识获取系统中,数据预处理是关键步骤,这是因为取得的原始数据不能够直接进行知识获取,需要进行一定的预处理加工才能够满足知识获取条件,原始数据的采样、收集及整理等都属于数据预处理的范畴。

3.2.2 编码

在遗传算法中,编码的过程就是基因型与表现型的映射工作,保证二者的一一对应,实质上就是解的遗传表示过程。

3.2.3 分类器差异度

差异度指的是空间中分布程度,将分类精度设为R,数据集中分类精度数量为m,则有R1,R2,…,Rm,用P代表数据集记录个数,则每一类记录数为P1,P2,…,Pm,则可以得出以下公式:

P=P1+P2…+Pm

R=P1R1+P2R2…+PmRm/P

Ri为第i类正确分类记录数与所有划分到第i类的记录数之间的比值,则可以得出分类器差异度D的计算公式:

D=R1R2…Rm/Rm

由上述公式可知,分类器差异度D的取值范围为(0,1),D的值越大,即越接近于1,代表分类器差异性越好。

3.2.4 适应度函数

适应度是度量群体中个体优化计算中接近找到最优解的优良程度的重要标准,利用适应度函数能够对个体适应度进行评估,从而对群体中个体优良程度进行评价。

3.2.5 遗传操作

(1)选择操作,即个体的优胜劣汰,选择适应性更强的染色体,将这些染色体组成新的种群。

(2)遗传运算,主要包括交叉运算和变异运算,形成新的个体并产生相应后代。

4 算法验证

4.1 数据预处理

为了对本文提出方法的有效性和可行性进行验证,本文以搜狗实验室文本分类数据为语料库,选取五类中文文档,分别是汽车类、教育类、体育类、文化类及旅游类,每类文档中包含新闻报1990篇,文档数量为9950。

4.2 验证结果分析

将数据库分为验证集和训练集,前者30%,后者70%,测试验证集,对NBC和gNBC的分类精度进行比较,结果如表1所示。

由表1可知,相较于NBC来说,gNBC分类精度普遍更优良,在同一数据集中,差异度影响系数取值不同,gNBC分类精度也有着一定多个差异性,因此,适当对差异度进行考虑有助于提升文本分类能力。但同时也需要注意,实验过程中,如果增加特征数目,会一定程度影响分查速度,在应用的过程中需要平衡速度和效率,这是本方法需要改进之处。

5 结论

综上所述,贝叶斯分类器在中文文本分类中有着重要的应用,本文提出了一种以遗传算法为基础的朴素贝叶斯分类器,分析了分类器的设计流程和功能实现,通过实例验证表明,本文提出的贝叶斯分类器在中文文本分类中的应用效果良好,分类精度较高,但在实际应用的过程中需要平衡分类效率和速度,这也是需要进一步改善之处。

参考文献

[1]罗海蛟.数据挖掘中分类算法的研究及其应用[J].微机发展,2013,13(02):48-50.

[2]王灏,黄厚宽,田盛丰.文本分类实现技术[J].广西师范大学学报:自然科学版,2013,21(01):173-179.

[3]秦进,陈笑蓉,汪维家,等.文本分类中的特征抽取[J].计算机应用,2015,23(02):45-46.

作者单位

杭州电子科技大学通信工程学院 浙江省杭州市 310002

猜你喜欢
文本分类遗传算法
遗传算法对CMAC与PID并行励磁控制的优化
基于自适应遗传算法的CSAMT一维反演
一种基于遗传算法的聚类分析方法在DNA序列比较中的应用
基于遗传算法和LS-SVM的财务危机预测
基于组合分类算法的源代码注释质量评估方法
协同进化在遗传算法中的应用研究
基于内容的英语录音教材标注研究与应用
基于改进的遗传算法的模糊聚类算法