基于语义的分布式知识管理系统模型

2016-08-04 08:58王志华刘衍鹏

中原工学院学报 2016年3期

关键词：知识管理分布式

王志华，刘衍鹏

(郑州大学软件与应用科技学院，郑州 450000)

基于语义的分布式知识管理系统模型

王志华，刘衍鹏

(郑州大学软件与应用科技学院，郑州 450000)

摘要：针对现有集中式的、应用传统检索技术的知识管理系统的局限性，提出了一种基于语义的分布式知识管理系统模型。在系统功能模块和本体设计基础上，重点分析和改进了全文检索、日志分析、个性化推荐三大功能模块的关键技术，提出了神经网络和字符串匹配相结合的中文分词算法，优化了一种局部合并改进算法，并将其应用于日志分析模块。使用改进的TF-IDF算法实现了个性化推荐模块，完善了该知识管理系统模型。实验表明，该模型检索效率和系统效率都有改善和提升。

关键词：知识管理；分布式；语义检索

伴随着时代的变迁与发展，知识管理作为一个崭新的概念，逐渐流行开来。通过长期实践，大多企业积累了较多的知识经验或数据资料，并且伴随着持续开展的管理活动、生产活动以及科研活动，知识的储量还将不断激增，从而产生越来越庞大的数据量。对企业来说，这些数据都是重要的资源，是实现自身持续发展的重要资本[1]。调查数据显示，大多数同类的大型公司都重视知识方面的管理和创新，这也是它们保持长期竞争力的重要因素。

近年来，数据信息领域涌现出了大量的新概念，如大数据、云计算、分布式计算等等[2]。在PB级非结构化数据处理方面，集中式检索的知识管理系统的局限性越来越突出，使用价值也越来越低。此时，要想准确而且高效地检索知识，需要采用全新的、基于分布式计算的知识管理系统。相比以前的系统，该系统更加稳定和高效，也更加适合企业的需求。

在信息检索方面，传统信息检索技术存在很大的弊端，除非关键词匹配，否则很难检索到想要的内容[3]。而且，这些内容基本上都是显性的。可见，在传统技术条件下，用户的检索需求与隐性信息需求都无法得到较好的满足。语义数据具有结构化、个性化、智能化等特征，其快速的、大规模的增长，为数据信息检索创造了全新的条件，使检索内容更加准确。因此，增加语义检索功能是一项必然之举。

1基于语义的知识管理系统模型

1.1系统功能模块

根据对企业知识管理平台的需求分析，设定企业知识管理平台功能模块结构，如图1所示。

图1　知识管理系统功能模块

对于企业来说，因涉及的文档内容比较多，体系不够简化，且很多信息都分布在多个计算机上，使文档内容查找具有一定难度。通过全文检索模块不仅能够建立针对性的文档索引、为用户提供专业的文档查询与搜索功能，还可以从根本上实现知识文档查询效率的有效提高。对于个性化文档来说，在对其内容进行全面分析后，可自动为工作人员提供所需文档，进而降低获取知识的难度。另外，日志分析模块也具有强大的功能优势，可对用户浏览访问情况进行分析与处理，进而为个性化文档推荐提供帮助。其他功能模块比如知识社区、知识地图、知识维护等，使系统功能更加全面，可为用户提供更优质的使用体验。

1.2企业本体构建

本体可实现信息的互换，其功能包括互操作性、系统工程等。在本体论知识的指导下，语义Web可很好地实现知识层面的共享，做到语义上的互操作性。要完成这两大目标，需要构建共享知识本体。本体提供对某领域共享、通用的理解，在语级上实现异构数据的信息集成，而不用去考虑具体语法，因此本体是概念化信息的显性解释。

本体对概念模型进行了清晰、规范的描述，可以用来解释领域知识的结构，为知识表示打下良好的基础。另外，本体避免了相关领域知识的重复分析，并结合相关的术语和概念，使知识共享成为可能。领域本体构成了某些领域相关信息资源的组织框架，抽象描述了具体领域中存在的概念和关系。领域本体在整个系统中具有重要的作用，它贯穿于系统中，为所有模块提供必要的参照和依据[4]。

检索领域的专业知识通常被存储在本体知识库中，包含专业领域的许多实体之间的关系。领域本体知识库是检测系统中最重要的知识源，既可以应用于事实数据的标引和检索，也可以实现算法的匹配、扩展用户的查询方式。在专业领域知识中，各层次的实体对象间的关系可采用本体技术进行相关扫描，某些深层次、隐性的知识可采用机器可读的方式进行描述。领域本体在进行结构优化和链接多类型的关系后，可以为较复杂的检索计算和有关语义推理提供技术支持。

下面以企业本体为例介绍其相关语义结构，如图2所示。

图2　企业本体

定义企业本体，即定义了企业领域中一系列术语和关系的集合。设定EO为企业本体，则EO={{E}，{R}}。其中E为企业中各实体的集合，包括部门、团队、任务等；R为实体相关关系集合。企业本体的构建，使系统可以直接获得类目的层次关系和对象之间的依赖关系。比如，当用户提交的查询为“部门”时，实验系统查询到的数据为与部门相关的信息，包括“管理部门”与“生产部门”的种类数据，以及相关实例数据，如“人力资源部”和“车间”等。

2模型实现关键技术

2.1全文检索关键技术

在全文检索模块中，分词可谓重中之重。现有比较成熟的中文分词算法基本都是基于字符串匹配和基于统计的分词算法[5]，但是这些只是一种“浅理解”的分词方法，不涉及真正的含义理解。在歧义识别和新词识别时，计算机难以做出正确的分词选择，会出现错误，使分词的准确性降低。为了进一步提高检索结果的准确性，通过对语义检索的理解和现有分词算法的研究，对原有的分词算法进行改进，提出了一种语义理解和字符串匹配相结合的中文分词算法。

本算法结合字符串匹配方法，得到匹配到词的频率。通过神经网络的最后一层的输出值，即神经网络中的分词概率，将两者相结合，综合判定最后的分词结果。算法的分词模型流程如图3所示。

图3　分词模型流程图

算法采用有三层神经元的神经网络模型，如图4所示，第一层是输入层，第二层是隐层，第三层是输出层。

从输入层到隐层采用全连接方式，每一个连接都有一个权重。输出层只有一个神经元，该神经元的输出表示当前字后面的位置是否为分词位置。神经元的输出值小于阈值的时候，输出为0，表示当前字之后位置并非分词位置；反之则输出为1，表示当前字之后位置即为分词位置。

图4　神经网络结构图

分词网络开始学习时，内部连接权值，阈值初始化，初始化的值可以随机赋予。为各网络单元提供一组输入输出模式对，获得各单元的输出值并求出其参考误差。根据各单元参考误差，调整内部各连接权值和阈值大小，使最后输出值满足要求，从而完成一次迭代。然后选择下一组输入输出模式对，重复上面过程。当最后一组模式对迭代完成后，重复第一对模式对的迭代。这样循环下去，一直到输出层误差满足要求为止。

“双向择岗”最大的好处之一就是能够显示一个站(办)所的人心向背。一般来说，等量资源、同等条件下人员变动率低的部门应当更为融洽、更能拧成一股绳。除党政办、党建站变动率比较高之外，爱卫办、民政所、卫生执法所(按之前的卫计所数据统计)人员变动率均高于30%，表明这些部门内部人员还不够团结，凝聚力和吸引力不足。

在本文的分词算法中，用Ci标记中文字符[6]。当前送入神经网络需要进行判定的字符标记为C0。这个字符前的中文字符标记为C-3、C-2、C-1，这个字符后的字符标记为C1、C2、C3。通过这种方式来判断C0后的位置是否为分词位置。首先以C0为中心，设置一个偏移量，得到一系列的中文字符串，相当于以一个变化的滑动窗口为中心进行滑动，将得到的字符串作为候选词，然后在字典中进行查找，如果找到，记下该候选词以C0为中心的偏移量和字符串整体长度，并且记录该词词频。

得到候选词后，该候选词i所代表的分词输出为：

(1)

(2)

其中，m表示该词的词数。

然后按照下面的公式计算出P值：

P=(Q1+Pn)/2

(3)

将计算得到的P值与阈值相比较，如果P值大于阈值，表示当前字后面的位置即为分词位置，将其后置为1，否则后置为0，同时指针后移进行下一个判断。

2.2日志分析关键技术

日志分析不仅需要对系统日志进行统一整理研究，还要对用户操作系统的习惯展开研究。在统计过程中，以统计热点主题为例，基于MapReduce相关算法找出最热门的主题。在应用程序中，为每一类型的内容设置一个标签，以显示其主题。首先，建立一个Map函数，发出标签和一个基于热门度的值。简化(Reduce)同一个标签的所有值，形成这个标签的分数。

在Map函数中，假设URI为key，value即为对应URI的点击次数。这样，在统计单个文档的热门度时，就会产生一个键值对，并以此作为中间结果输出。但是单独文档中不可避免地会出现同样的URI，这就意味着会有不少重复的键值对产生。将这些相同的结果传递给Reduce时，会消耗带宽，对系统运行效率产生很大影响。

针对这种情况，为了有效节省带宽和提高系统运行效率，可以考虑在Map运行结束后先将相同中间结果进行合并，再传递给Reduce函数。具体实现流程如图5所示。

图5　MapReduce数据分析流程图

2.3个性化推荐关键技术

在系统数据处理信息过程中,采用的算法为TF-IDF算法。这种算法能够对数据进行相似性模拟运算，从而得到需要的结果[7]。

在TF-IDF算法中，TF是基于特定关键词的出现频率，IDF则是特定关键词的重要性。TF能够反映文档中某些特定值被提及的次数，进而体现出该文档的关注点。在对热点词汇进行筛选统计的过程中，还需要设置对一些无意义助词进行筛选的筛选因子。在对TF进行统计后，将IDF因子引入算法进行检索评价筛选，剔除那些无意义的助词，以确保获得的推荐数据均为能够反映用户行为的信息。

假定文档集合D={D1，D2，…，Dn},匹配关键词(Key word)为 Term，Term 在其中一个文档中的频次为C={C1，C2，C3，…，Cn}，Term 在所有文档中的频次为Nt，则Di中Term的 TF-IDF 计算公式为：

(4)

TF-IDF将文档内的全部数据作为一个整体进行分析，这种算法并没有针对特征词在不同类目中的属性进行区分，在文档不同类目下特征词的权重应该有所不同。结合算法的描述，部分高热度的能够反映特征的信息权重较低。比如说某个特征词在全部文档中大量出现，那么这个特征词的IDF值应该是比较低的。但是如果该词仅仅在某一个类目中大量出现，而在其他类目中很少出现，那么应该给予它较高的IDF值。对于这种问题，需要对TF-IDF算法进行优化，增加那些在类目中具有代表性的特征词的权值，以便于更加精确地对实际文档的关键词进行统计筛选。

设文档总数为N，包含当前特征项Term的文档数为n，其中在某一类目C中有m个文档包含该特征项，非C类中有i个文档包含该特征项。可以设：

(5)

(6)

其中，m1>m2。

在式(6)中，当m增大时，f(m)增大；当i增加时，f(m)减小，这正好能满足算法改进的思想，所以，Term新的IDF计算公式为：

(7)

3实验结果和分析

3.1全文检索性能分析

全文检索有两个衡量标准，分别是查全率和查准率。其中，查全率=(检索出的所有有关信息量/系统中所有有关信息量)×100%；而查准率=(检索出的有关信息量/检索出的所有信息量)×100%。

本系统使用提前准备好的100篇本地文档作为测试数据，包括pdf、html、doc、xls等格式。选择5个样本词语进行测试，分别使用Lucene自带分词器和改进的中文分词方法，得到的结果如表1和表2所示。

从表1和表2可以看出，应用基于语义的中文分词技术后，全文检索的查全率并没有太大的变化，只提高了2.1%，但是系统的查准率提高了9.7%，有了大幅度提高，这充分说明使用基于语义的中文分词方法，有助于提高系统检索效率和准确性。

表1　改进前检索系统查全率和查准率

表2　改进后检索系统查全率和查准率

3.2系统性能分析

根据系统集群配置情况，采用相对应的数据量对系统进行检测，并与单机性能做对比。在比较实验中计算机都需按照此标准进行配置：处理器型号为Intel I5、CPU主频为3.30 GHz、内存容量为4 GB、硬盘总容量为1 TB。其中，Hadoop集群由3台这样配置的计算机搭建，单机模式则只由1台这样配置的计算机搭建。然后对索引时间进行运算，对两者性能进行检测。为得到客观、真实的结果，需反复测验，选取平局值进行对比，对比结果如图6所示。

图6　集群与单机模式性能对比图

通过图6可知，在数据量不多的情况下，Hadoop集群处理速度明显低于单机模式，产生此问题的原因在于Hadoop的分布特性。数据量过小，无法发挥集群强大的运算优势。在数据由4 GB扩展为20 GB时，Hadoop处理时间没有出现明显增加，而单机处理时间却快速上升。在处理20 GB数据时，Hadoop集群的处理速度是单机模式的4倍。根据对比试验可知，在处理大规模数据时Hadoop集群优势最突出。

4结语

本文针对传统的集中式知识管理系统在功能、性能上的一些缺陷，提出了一个基于语义的分布式知识管理系统模型，并对其三个重要功能模块及核心算法进行改进和介绍。实验证明，该模型有效地提高了全文检索的查全率、查准率，提高了系统各项功能模块以及整个系统集群的工作效率。对于一个完整的知识管理系统来说，仍有很多功能需要加入和完善，如知识门户、知识地图、知识社区等。如何对这些功能模块进行改进和完善，是进一步提升系统所需要考虑的。

其次，语义技术在系统中的应用并不是很成熟。本文仅初步使用了本体和语义检索的相关技术来对中文分词进行改进。在下一步的改进中，应该加强对本体推理、概念约束等技术的应用，以提高系统设计水平和检索效率。

总体而言，一个完善的知识管理系统，对于企业的发展创新和提升竞争力都具有十分关键的意义。分布式技术和语义技术的应用，为系统的检索和运行效率提供了稳固的技术保障。

参考文献:

[1]李艳青，国外知识管理与信息管理的概念框架[J]，创新科技，2013(4)：24-25.

[2]冯兰萍，张继国. 基于本体的中文信息检索模型[J]. 河海大学常州分校学报，2004(4):40-42.

[3]Bill Franks.驾驭大数据[M].北京：人民邮电出版社，2013.

[4]金保华，赵家明.基于语义的应急预案库检索本体表示研究[J].中原工学院学报，2014，25(6)：89-92.

[5]Gao J F, Wu A D， Li M， et al. Adaptive Chinese Word Segmentation[C]//42nd Annual Meeting of the Association for Computational Linguistics，Barcelona,Spain，2004.

[6]Jin K L, Ng H T, Guo W. A Maximum Entropy Approach to Chinese Word Segmentation[C]//Proceedings of the Fourth Sighan Work-shop on Chinese Language Processing, Jeju Island, Korea,2005.

[7]唐真.基于 hadoop 的推荐系统设计与实现[D]. 成都：电子科技大学，2013.

(责任编辑：席艳君)

收稿日期：2016-05-30

基金项目：河南省基础与前沿技术研究计划项目(142300410226)

作者简介：王志华(1977-)，男，河南郸城人，副教授，硕士，主要研究方向为信息处理。

文章编号：1671-6906(2016)03-0078-06

中图分类号：TP391

文献标志码：A

DOI:10.3969/j.issn.1671-6906.2016.03.018

Distributed Knowledge Management System Model Based on Semantic

WANG Zhi-hua, LIU Yan-peng

(Zhengzhou University, Zhengzhou 450052, China)

Abstract:In view of the existing centralized application of the knowledge management system limitations of the traditional retrieval technology is more and more outstanding, this paper proposes a distributed knowledge management system based on semantic model. Based on the construction of the Knowledge Management System modules,this paper focuses on the analysis and implementation of key technology such as the full-text search, log analysis and personalized recommendation. It proposes and implements a Chinese Word Segmentation which combines neural networks and string matching, improves an Improved algorithm and applies it to log analysis module, achieves personalized recommendation module with the improved TF-IDF algorithm and Completes the knowledge management system model. Finally, experimental results show that the model retrieval efficiency and system efficiency are improved and ascend .

key words：knowledge management; distributed; semantic search