基于改进BP网络的中文期刊论文分类方法

2014-09-17 10:18张瑾

河南图书馆学刊 2014年5期

关键词：特征提取

关键词：BP网络；论文分类；特征提取

摘要：文章将改进BP网络应用到期刊论文的分类领域中。该方法根据中文期刊论文的特点选择题名、摘要及关键词作为特征项的来源，计算特征项的权值，设定阀值对特征项向量进行降维处理，最后利用BP神经网络对不同的阀值分别进行分类实验，比较其效果。

中图分类号:TP391文献标识码：A文章编号：1003-1588（2014）05-0061-03

收稿日期：2014-03-11

作者简介：张瑾（1970-），郑州轻工业学院图书馆馆员。1序言

1960年，Maron发表了第一篇自动分类文章，将贝叶斯定理运用于文本自动分类，标志着自动分类技术的正式产生［1］。1998年，JoachimsT将支持向量机算法应用于文本自动分类［2］，Yang Y.和Chute C.G两位学者提出了 K邻近的分类方法［3］。相对于国外，国内的文本自动分类研究起步相对较晚，基于机器学习技术的自动分类也是目前我国文本自动分类领域的主流。国内学者的研究对象主要是中文文本自动分类，国内学者学习并应用了各种分类算法，并根据中文的特点构建了我国的中文文本自动分类体系［4］。刘锋将径向基神经网络模型应用到了XML文本的自动分类中［5］。胡清华提出了可变精度的粗糙集模型，引入精度的概念，提高了处理不一致信息的能力［6］。

笔者将文本分类技术应用到期刊论文的自动分类中，根据期刊论文的特点，在选择数据上进行改进，同时对传统的BP网络算法进行改进，构建分类系统，从大规模期刊论文中提取分类的信息，并验证其分类的可行性。

2期刊论文分类的问题描述

期刊论文分类的任务是：在给定的分类体系下，根据论文的主题自动确定论文的类别。从数学角度看，期刊论文分类是一个映射过程，它将未知分类的论文映射到已有的类别中。该映射可以是单映射，也可以是一对多映射。笔者为了简化问题，采用一对一映射。

论文分类的映射规则是系统根据已经掌握的每个类别的很多样本数据信息，总结出分类规律而产生的分类规则，完成分类器的构建。输入未知类别的论文，根据分类规则确定其相应的类别。

3数据预处理

3.1空间模型

为了使计算机能够自动分类，必须先将论文转换为计算机可以识别的格式，笔者采用向量空间模型（即VSM）。其基本思想是以向量模式表示一篇论文：（W1，W2，W3，…，Wn），其中Wi为第i个特征项的权重。

论文在结构上由题名、作者、摘要、关键词及正文等组成，笔者认为这些信息中能够为论文分类提供依据的有题名、摘要和关键词。笔者采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS (Institute of computing Technology，Chinese Lexical Analysis system ) ，对题名和摘要进行分词，然后进行停用词剔除，将得到的词语和关键词一起组成特征项。

在文本自动分类研究中，计算特征项的权值时一般采用TF-IDF算法来计算，笔者采用另外一种方式计算特征项权值，即特征项出现在题名中时其权值为3，出现在关键词中权值为5，出现在摘要中权值为2。在正常情况下特征项在题名中重复的概率很低，故不考虑出现的频率。但在摘要中的特征项重复的概率较高，频率为m，在计算特征权值时，其权值为2*m。因特征项可能即出现在题名中又出现在关键词或摘要中，此时设定权值取最大值。

3.2特征提取

对期刊论文进行向量空间表示之后，特征空间的维数会很大，因此必须进行特征抽取。特征抽取可以降低空间维数，简化计算，防止过度拟合。特征抽取常用的方法有：文档频率法、信息增益、相互信息法和x2统计法等。笔者采用一个新的方法即设定一个阀值，剔除小于阀值的特征项，保留大于阀值的特征项。

3.3期刊论文类别

目前中国知网的期刊论文的类别是依据《中国图书馆分类法》进行人工标引获得的分类号。《中国图书馆分类法》共分5个基本部类、22个大类。采用汉语拼音字母与阿拉伯数字相结合的混合号码，用一个字母代表一个大类，以字母顺序反映大类的次序，在字母后用数字作标记。为适应工业技术发展及该类文献的分类，对工业技术二级类目，采用双字母。例如：分类号TP391代表信息处理（信息加工）。

4改进BP神经网络分类器

传统BP网络具有思路清晰、结构严谨、工作状态稳定、可操作性强等特点，并且由于隐层节点的引入，使得一个三层的非线性网络可以以任意精度逼近任何连续函数，从而在模式识别、非线性映射、复杂系统仿真等许多领域得到广泛应用。但存在几个缺陷［7］：①传统的BP网络既然是一个非线性优化问题，这就不可避免地存在局部极小问题。②学习过程中，学习速度缓慢，易出现一个长时间的误差平坦区，即出现平台。其原因主要是其算法中网络权值以及阈值的每次调节的幅度均以一个与网络误差函数或对其权值导数大小成正比的固定因子进行。

针对BP算法收敛速度慢的缺点，笔者引入带动量的批处理梯度下降的思想，即每一个输入样本对网络并不立即产生作用，而是等到全部输入样本到齐，将全部误差求和累加，再集中修改权值，即根据总误差E=∑kEk修正权值，以提高收敛速度。在调整权值时加入动量项，降低网络对于误差曲面局部细节的敏感性，有效地抑制网络过冲现象，此时，

△Wji（t）=ηEWji+ηα△Wji（t-1）(1)

其中，α为动量系数，加入的动量项相当于阻尼项，以减小学习过程的振荡趋势，从而改善收敛性。其算法如下：

①初始化权值和阈值；

②给定输入x和目标输出y；

③计算实际输出y：

张瑾：基于改进BP网络的中文期刊论文分类方法张瑾：基于改进BP网络的中文期刊论文分类方法yj= 瘙楋（∑iwjixi-θj）(2)

④修正权值，比起传统的算法增加了动量项，权值调整公式为：

wji（t+1）=wji（t）+ηα△wji（t）(3)

△wji（t）=ηEWji+ηα△wji（t-1）=ηδixi+ηα△wji（t-1）(4)

E=∑kEk=∑k∑i12（yki-yki）2(5)

其中若j为输出节点，则

δj=（y-yj）yj（1-yj）(6)

若j为隐层节点，则

δj=yj（1-yj）∑kδkwkj(7)

⑤若达到误差精度或是循环次数，则输出结果，否则回到②。

BP网络训练完成之后，得到的权系数和阈值系数就是一个预测模型。当输入的样本数据是若干组分类数据时，得到的就是一个预测分类模型。

5实验

5.1测试标准

评价文本分类系统，一般采用准确率(Precision)、召回率(Recall)和F1值来衡量分类效果。

查准率(Precision):

P=AA+B查全率（Recall）：

R=AA+C其中，A一正确地分入该类的文档数；

B一错误地分入该类的文档数；

C一错误地划出该类的文档数；

准确率和召回率反映了分类质量的两个不同方面，其中一个指标提高，会导致另一个指标下滑，采用两者的调和平均值，计算公式如下：

F1=2PRP+R=2A2A+B+C

可以看出F1值越大，抽取性能就越好。

5.2数据准备

文中所有的数据均从中国知网上进行获取，在中国知网上可以获取到的信息有题名、作者、摘要、分类号、关键词等。笔者使用工具在中国知网上抓取了2万篇左右的期刊论文信息作为实验样本。保留题名、摘要、关键词和分类号。其中18,000篇论文作为训练用，2,000篇论文作为测试使用。对实验样本的题名和摘要进行分词，剔除停用词，计算其和关键词的权值，形成文本空间模型。

5.3实验结果

在上述工作基础上，笔者对文中特征提取的方法设置阀值对空间模型进行降维，并测试了不同阀值选取对分类的性能的影响。笔者分别选择阀值为1、2和3进行测试，得到效果如表1。

表1不同阈值下分类的效果

阀值123准确数1,5401,5741,605查准率94.94%96.15%96.75%查全率94.19%95.34%96.92%值94.57%95.74%96.83%由表1可知,在阈值为1时,由于加权,所有特征项的特征值都是大于1的,故实验结果是未经过降维处理得到的结果；当阈值为2时,特征值为2的特征项将会被删除,删除只在摘要并且只出现过一次的特征项,实验结果F1值提升了 1.18个百分点,说明有一定的效果；当阈值为3时, 特征值小于等于3的特征项将会被删除,删除只在题名或摘要中出现并且只出现过一次的特征项 ,实验结果值达到了96.83%。

6结语

笔者将BP神经网络应用到期刊论文的分类中。根据论文的特点合理选择题名、摘要及关键词作为特征项来源，并计算特征项的权值，设定阀值对特征向量进行降维处理，最后利用BP神经网络分别对不同的阀值进行实验。实验表明在阀值设置为3时，分类效果最好。

参考文献:

［l］孙建军,成颖等编著.信息检索技术［M］.北京:科学出版社,2004.

［2］Joachims T. Text categorization with support vector machines: learning with many relevant features［C］. In: Proceedings of 10 European Conference on Machine Learning (ECML-98), Chemnitz , DE, 1998, 137-142.

［3］Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval ［J］.ACM Transactions on Information Systems,1994,12(3): 252-277.

［4］陈玉芹.多类别科技文献自动分类系统［D］.湖北:华中科技大学,2008.

［5］刘锋,唐佳,仲红.一种基于RBF祌经网络XML文本分类方法［J］.计算机技术与发展,2009(8):34-36.

［6］胡淸华,谢定霞,于达仁.基于粗糙集加权的文本分类方法研究［J］.情报学报,2005(1): 59-63.

［7］周朴雄.基于神经网络集成的WEB文档分类研究［J］.图书情报工作，2008（7）：110-112.

（编校：严真）

5.3实验结果

表1不同阈值下分类的效果

6结语

参考文献:

［l］孙建军,成颖等编著.信息检索技术［M］.北京:科学出版社,2004.

［3］Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval ［J］.ACM Transactions on Information Systems,1994,12(3): 252-277.

［4］陈玉芹.多类别科技文献自动分类系统［D］.湖北:华中科技大学,2008.

［5］刘锋,唐佳,仲红.一种基于RBF祌经网络XML文本分类方法［J］.计算机技术与发展,2009(8):34-36.

［6］胡淸华,谢定霞,于达仁.基于粗糙集加权的文本分类方法研究［J］.情报学报,2005(1): 59-63.

［7］周朴雄.基于神经网络集成的WEB文档分类研究［J］.图书情报工作，2008（7）：110-112.

（编校：严真）

5.3实验结果

表1不同阈值下分类的效果

6结语

参考文献:

［l］孙建军,成颖等编著.信息检索技术［M］.北京:科学出版社,2004.

［3］Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval ［J］.ACM Transactions on Information Systems,1994,12(3): 252-277.

［4］陈玉芹.多类别科技文献自动分类系统［D］.湖北:华中科技大学,2008.

［5］刘锋,唐佳,仲红.一种基于RBF祌经网络XML文本分类方法［J］.计算机技术与发展,2009(8):34-36.

［6］胡淸华,谢定霞,于达仁.基于粗糙集加权的文本分类方法研究［J］.情报学报,2005(1): 59-63.

［7］周朴雄.基于神经网络集成的WEB文档分类研究［J］.图书情报工作，2008（7）：110-112.

（编校：严真）