知识融合理论研究发展与展望

2012-06-10 03:24曹昕莹张政超

中国电子科学研究院学报 2012年3期

郭强，关欣，曹昕莹，张政超，何友

(1.海军航空工程学院信息融合技术研究所，山东烟台 264001;2.中国人民解放军63880 部队，河南洛阳 471003)

0 引言

知识是任意活动的重要资源，随着网络应用的增加和服务质量的提高，分布式知识库的管理日益重要［1］。在很多应用领域中，当前知识都需要存放在分布式知识库中，这导致知识客户需要从分布式知识源进行知识融合。知识融合是知识管理和知识工程的重要组成部分，它主要研究分布式知识库系统中知识的转换、集成和融合，并产生新的知识，同时对知识对象的结构和内涵进行优化，提供基于知识的服务［2～4］。

知识融合是在信息融合基础上发展起来的一个新的融合概念，根据美国JDL 提出的信息融合四级模型［3］，知识融合主要属于三级、四级高层信息融合的一个范畴，知识融合处理的对象不局限于传感器获取的数据、信息，还可拓广到方法、经验甚至思想等，解决了语法和语义级的异构，实现了分布式知识库环境中知识系统的知识重用、知识共享、交互、集成和协同工作，特别对研究基于知识内涵的隐性知识到显性知识的转变等方面具有相当重要的意义。

1 知识融合的定义及结构

1.1 知识科学领域

目前相关研究领域的文献中对于知识融合的定义尚未统一，从知识科学本身研究和应用对象的角度出发基本上可以归纳为两类:第一类定义以KRAFT 项目的相关文献为代表［5～7］，该定义认为知识融合是指从众多分布式异构的网络资源中搜索和抽取相关知识，并转换为统一的知识模式，从而为某一领域的问题求解构造有效的知识资源。

文献［5］定义知识融合的典型系统KRAFT 从概念层次上对应一个域，主要包含三类功能对象实体，分别用W、F 和M 表示，数据库和知识库都是服务资源，而用户Agent 是消费者，如图1 所示，其中KR 代表知识资源对象，UA 代表用户Agent。W 的对象实体是服务对象和资源之间的接口，F 的实体负责系统内部的消息路由，而M 则是知识融合的核心功能对象，对应的对象实体功能包括异构数据源集成、根据语义对知识进行转换、知识一致性的检查和处理、基于本体的知识等价转换等。在实际处理过程中，F 根据W(可能对应服务资源，也可能对应用户Agent)提供的信息找到适合的M 并建立路由并可在M 之间建立路由。当路由是从资源对应的W 到M 时，M 执行知识转换;当一条路径上有多个M，或者同一M 位于多条路径上时，就会进行知识融合。当路由是从用户Agent 对应的W 到M 时，M以统一模式的方式将另一端知识资源提供给该消费者。从上述过程可以看到，这种体系结构支持的知识融合过程的关键就在于将抽取的知识转换为统一的知识模式，从而为具体的应用服务，融合过程从本质上对应为知识模式的不断集成和转换［4］。

图1 KRAFT 概念层次体系结构

第二类定义强调集成过程的结果是新知识的产生，认为知识融合是一种服务，它通过对来自分布式信息源的多种信息进行转换、集成和合并等处理，产生新的集成化知识对象，同时可以对相关的信息和知识进行管理［8，9］。

这种定义对应的典型系统将知识融合系统分为四个主要功能模块，问题分析、本体管理、知识融合和知识同步，如图2 所示。问题分析模块负责将需要求解的问题进行分析和分解，该模块中需要用到全局本体库和映射目录表;本体管理模块处理领域本体之间的交互性操作，各领域本体间语义交互关联关系通过由该模块维护的映射目录表来体现;知识融合是该系统的核心模块，按照融合规则集中的条目内容和待解问题对应的本体对象，将众多分布式异构信息融合为新的集成化知识对象;知识同步模块会在知识源出现知识融合引起的知识元素变化时，对用户服务端的相应知识元素进行同步更新以保证用户端知识对象的一致性。

图2 第二类定义对应的体系结构

1.2 军事应用领域

现代战争形态正从机械化向信息化转变，其主要特征是全纵深作战、非线性作战、非接触作战及平时和战时一直都在进行的以网络、信息为基础的电子信息攻防作战，这种交战方式不再局限于一定区域的有限范围，而是扩大到了全球范围的陆、海、空、天、电、网等全维空间，信息化战争将成为21 世纪的主要战争形势。为了夺取未来战争的信息优势而提出了网络中心战概念，即通过全球信息栅格(GIG)把全谱战斗空间中许多知识丰富的实体有效地连接起来，真正地实现信息共享和资源共享。为了将多种传感器和不同的信息源等实体进行更有效的集成，以提高信息处理的自动化程度，从20 世纪70 年代起，信息融合迅速发展起来，并在现代C4IKSR 系统中和各武器平台上得到了广泛应用。

从军事应用的领域出发，知识融合可以归类为信息融合中高层融合的范畴［10］，作为解决态势评估及决策系统问题有效的技术方法。文献［10］将知识融合定义为，知识融合就是实时地融合和处理大量的来自民用和军事资源的信息来辅助人们知识创造的过程。美国JDL 将信息融合分为四级模型，现在信息融合的一级、二级融合技术发展很快，很好地解决了数据冗余、冲突和矛盾信息融合［11～14］的问题，在多传感器多目标跟踪［15，16］、识别［17～20］和航迹关联［21，22］等应用中发挥了巨大的作用，但是高层的融合即知识层的融合仍面临巨大的困难。如何解决信息融合高层融合面临的知识系统语法、语义的异构问题，如何实现知识的重用、共享，如何实时的处理大规模的知识求解，如何融合不同系统传来的数据和信息，以及知识形成统一的战场态势图都是知识融合所面临的问题。而近年来美军在知识融合领域的发展很快，因为知识融合不仅建立在信息融合的基础之上，还得益于在多Agent 系统、信息集成和语义网等领域的快速发展。美军认为知识融合的技术包含了数据融合、信息集成、本体及语义网，先进的决策表示及逻辑推理，多知识代理，如图3 所示。

图3 军用领域知识融合的技术结构

2 知识融合的算法

融合算法的目标是通过某种可流程化实现的处理过程将已有的知识元素按照约定的规则进行比较、合并和协调等融合运算，从而产生出新的可用知识对象内容并同时对原有的知识元素进行优化。例如如果有两个简单的知识元素分别为KE1和KE2，在它们各自所在的知识领域中并无其他联系，但当应用到某一实际问题PR 时，发现它们“合成”的新知识元素f(KE1，KE2)确是一个有效的解知识，则可以将规范化表示后的f(KE1，KE2)作为一个融合结果加入到原有的知识库中，同时通过本体概念约束对KE1和KE2进行适当的更新处理，f 的实现过程就是融合算法的设计过程。

要实现理想的融合过程需要解决三个基本问题，即知识结构差异性、知识扩展的开放性和知识更新的随机性。如果知识元素的表示结构存在差异，则很难直接进行处理，从算法结构来看，至少要求输入是可处理的规格化数据集合。为了解决知识异构的问题，现阶段研究大都采用本体论的相关技术将知识库转化为本体库或知识元集合［4，23，24］，将知识元素统一为对象化表示处理，消除了知识对象表示方式上的差异。知识扩展的开放性是指知识元素的结合可能是两个对象之间，也可能是多个对象之间发生的，而融合的结果一般并不是唯一的［25］，可能会是一个相当庞大的规模，所以在进行知识融合处理的同时，必须考虑如何对运算后的知识元素规模进行有效合理的控制。知识更新的随机性［26］是指知识处理过程中，一个系统的知识应该向什么方向演变是无法预知的，所以很难给出具有特定趋势指导的融合算法。为此在融合算法中，要尽可能构造各种随机改动的操作，根据应用结果的反馈来判断改动的成功与否。

根据融合过程的动因，可以将融合算法划分为两大类，即被动型和主动型。所谓被动型是指融合算法中的启发式规则和适应度都是针对具体应用求解问题的，这类融合算法本质上对应于在知识空间进行的搜索算法，即对知识对象演变的趋势有一个以问题求解为主的导向。被动型和具体应用结合比较紧密，融合算法的处理结果规模也相对较小，但是可能会忽略一些有潜在作用的新知识元素。而主动型融合算法主要是针对已有知识对象内涵之间潜在的联系，即直接在现有知识的基础上按照知识对象的概念化约束条件生成新知识，这一生成过程并不直接以具体应用求解为驱动或者并不以此为主要目标，但其结果可能恰好满足某种需求(直接或间接)。从算法设计目标上来看，主动型融合是一种构造型算法，此类算法的运算规模要比被动型大，但是能够较好地兼顾知识的开放性和随机性。

3 知识融合的融合等级和过程模型

知识融合是在信息融合基础上发展起来的一个新的融合概念，根据美国JDL 提出的信息融合四级模型［3］，知识融合主要属于三级、四级高层信息融合的一个范畴。知识融合在信息融合中的融合等级模型图如图4 所示。

图4 知识融合的在信息融合中的融合等级模型

知识融合与信息融合的功能目标上完全一致，都是通过对多源的对象个体进行综合分析得到新的可用性强的同类对象。不同之处在于，信息融合的第一级融合处理对象内容一般是数据化信息，如传感器信号序列，而信息融合的高层融合即知识融合，不仅需要处理数据化的信息，还需处理知识对象实体，例如规则库等。

下面介绍一种知识融合的过程模型，该模型主要包括四个功能模块，如图5 所示，即本体库和元知识集的构建、融合算法的设计与实现、解知识空间的生成与演化及基于应用反馈的评估与参数校正;主要包含五种数据类型，即代表知识源的知识库、各知识源对应的元知识集合、由对象化表示的本体构成的本体库、用于融合算法过程的融合规则库及结合本体与先验知识产生的约束集。

图5 知识融合的过程模型结构图

从功能模块的过程化处理角度来看，首先对分布的知识源进行处理，结合知识融合系统的特点构造各领域知识或分布式知识库对应的元知识集和本体;当本体管理完成本体映射目录和全局本体库之后，融合模块采用融合算法对规范化表示的元知识集进行融合处理，结合本体库和背景知识产生的约束集构建解知识空间:解知识空间中的知识元素按照一定的规律进行演化，结合实际应用问题在解知识空间中进行搜索，得到需要的(新)知识对象;最后通过知识应用的反馈结果对融合系统的相关参数进行优化调整。

4 知识融合的国内外研究现状

知识融合的研究源于知识工程的提出，从1995年起知识融合逐渐成为一个独立的研究领域，明确地以知识融合为主题的研究项目越来越多，同时在研究过程中采用和涉及到的相关计算机技术也随之增加。

Preece 等［5～7］在KRAFT 项目(knowledge reuse and fusion transformation)的开发过程中中研究了网络环境下的知识融合，主要包括知识的表达、重用、不确定知识的推理和多Agent 决策。文献［10］主要研究了知识表达、推理及其在军事决策上的应用，并对大量异构信息的智能融合。文献［27］利用图划分技术提出基于本体的知识融合框架。文献［28］综合知识融合过程中软性约束和硬性约束的特点，提出基于蚁群算法的知识分类技术。文献［29］运用OWL 表示概率本体，并提出一个PROWL 概率本体的输入、存储和推理的系统，实现了多个噪声信息源的融合。文献［23］运用网格平台提出一种基于语义的高效共享和协同解决问题的方法，实现了智能系统中知识和信息的集成。文献［30］针对XML数据提出了一个知识融合的模型及信息集成框架。文献［24］研究了基于本体的遗传融合算法，并建立了系统评估和参数校正的自适应机制。文献［31］将信息熵的概念引入到基础概率分配的确定中，推导出基于D-S 证据组合理论的知识融合公式，并将其应用于企业失败预警问题中。文献［32］为了提高融合知识的语义规范性和准确性，提出了利用融合知识测度提高新知识语义内涵和控制融合结果规模，并运用基于信息扩散原理的评价机制提高融合知识准确性的知识融合框架。

5 存在的问题及发展趋势

近年来，知识融合已经在国内外相关研究和应用领域中发挥出越来越重要的作用，针对知识融合中的一些关键性问题也有很多新的算法思想和技术手段不断被提出和改进，但知识融合的研究过程仍存在一些问题，主要体现在以下几个方面。

(1)目前的研究一般都会选择具体的领域知识背景，尚未能够形成通用性较强的统一的融合框架，如何确立知识融合应该必备的功能模块，如何对各确定模块之间进行关系划分等问题还没有得到很好地解决，如何确立通用性的知识融合体系结构，今后还需要进一步地研究。

(2)可以直接使用的流程化的合理高效的融合算法较少。目前较为典型和普遍的做法是采用定义融合规则的方式和基于人工神经网络或遗传算法原理的流程化算法，但总体来说，这类算法的数量较少，以至于很难在效率上进行要求或比较。将现阶段在人工智能领域中取得很好成果的智能算法应用于知识融合领域并提出新的高效算法，将会对知识融合研究的发展有很大帮助。

(3)大多数融合算法需要借助于本体之间的交互操作，而本体本身的复杂性降低了算法的效率。本体的管理过程相对比较复杂，有一些实现问题还没有完全得到解决，影响了融合算法的效率。如何尽可能地利用本体论技术的优势为知识融合服务，又克服本体论技术中固有的难点对知识融合的影响是今后亟需解决的问题。

(4)由于知识融合的结果往往是一个规模庞大的知识集，而其中有些知识是无用的，甚至是不符合逻辑的，所以在融合规则指导下的知识融合，其产生的新知识的有效性还需进一步通过评价机制予以提高，如何描述和控制融合后新知识的规模成为一个重要问题。

(5)目前知识融合领域的研究工作相对偏重于概念建模和理论分析，与实际应用背景的结合研究方面还有较大的空间，仍可以开展更多的相关工作。

［1］CHANG G，ZRIDA J，BRIDWELL J D.Knowledge-Based Distribution System Analysis and Reconfiguration［J］. IEEE Transactions on Power Systems，1990，5(3):744-749.

［2］DENG Y，SHI W K.Experts’Knowledge Fusion in Model—Based Diagnosis Based on Bayes Networks［J］. Journal of Systems Engineering and Electronics，2003，14(2):25-30.

［3］何友，王国宏，关欣，等. 信息融合理论及应用［M］.北京:电子工业出版社，2010.

［4］缑锦. 知识融合中若干关键技术研究［D］. 杭州:浙江大学，2005.

［5］PREECE A D，HUI K Y，GRAY W A，et al. Designing for Scalability in a Knowledge Fusion System［J］. Knowledge Based Systems，2001，14(3-4):173-179.

［6］PREECE A D，HUI K Y，GRAY W A，et al.KRAFT:An Agent Architecture for Knowledge Fusion［J］.Int.Journal of Cooperative Information Systems，2001，10(1-2):171-195.

［7］PREECE A D，HUI K Y，GRAY W A，et al. The KRAFT Architecture for Knowledge Fusion and Transformation［J］.Knowledge Based Systems，2000，13(2-3):113-120.

［8］BRAIN J G，DICKSON L. Knowledge Fusion［C］//In:Proc. of the 7th Annual Workshop on Conceptual Structures:Theory and Implementation. Springer-Verlag Published，1992:158-167.

［9］GRAY A，MARTI P. Towards a Scalable Architecture for Knowledge Fusion［C］//In:Proc. of Int. Workshop on Infrastructure for Scalable Multi-Agent Systems. Barcelona，2000:279-292.

［10］SCHERL R，ULERY D L.Technologies for Army Knowledge Fusion［R］. Aberdeen:Army Research Laboratory，2004.

［11］HE YOU，HU LIFANG，GUAN XIN，et al. New Method for Measuring the Degree of Conflict among General Basic Probability Assignments［J］. Science China-information Sciences，2012，55(2):312-321.

［12］HU LIFANG，HE YOU，GUAN XIN，et al.A New Probabilistic Transformation in Generalized Power Space［J］.Chinese Journal of Aeronautics，2011，24(4):449-460.

［13］HE YOU，HU LIFANG，GUAN XIN，et al. New Method for Measuring the Degree of Conflict among General Basic Probability Assignments［J］. Science China-Information Sciences，2012，55(2):312-321.

［14］ HU LIFANG，GUAN XIN，HE YOU. Efficient Combination Rule of Dezert-Smarandache Theory［J］. Journal of Systems Engineering and Electronics，2008，19(6):1139-1144.

［15］GUAN XIN，HE YOU，YI XIAO. Gray Track-To-Track Correlation Algorithm for Distributed Multitarget Tracking System［J］.Signal Processing，2006，86(11):3448-3455.

［16］YI XIAO，GUAN XIN，HE YOU. Dynamic Multidimensional Assignment Algorithm for Multisensor Information Fusion System. Intelligent Control and Automation［J］.Book Series:Lecture Notes in Control and Information Sciences，2006，344:869-874.

［17］GUAN XIN，YI XIAO，HE YOU. A Novel Emitter Signal Recognition Model Based on Rough Set. Intelligent Computing in Signal Processing and Pattern Recognition［J］. Book Series:Lecture Notes in Control and Information Sciences，2006，345:81-89.

［18］ GUAN XIN，HE YOU，YI XIAO. A Novel Radar Emitter Recognition Algorithm Based on Fuzzy Comprehensive Evaluation［J］. The Proceeding of the International Computer Congress 2004 on Active Media Technology，Chongqing，2004:228-233.

［19］何友，关欣，衣晓. 基于属性测度的辐射源识别方法研究［J］.中国科学E 辑，2004，34(12):1329-1336.

［20］关欣，何友，衣晓.一种新的基于粗集的辐射源信号识别模型［J］. 宇航学报，2007，28(3):685-688.

［21］田宝国，何友，杨日杰.人工神经网络在航迹关联中的应用研究［J］.电子与信息学报，2005，27(2)，310-313.

［22］何友，田宝国. 基于神经网络的广义经典分配航迹关联算法［J］.航空学报，2004，25(3):300-303.

［23］ZHENG X Q，WU Z H，CHEN H J. Knowledge Fusion in Semantic Grid［C］//Proceedings of the 5th International Conference on Grid and Cooperative Computing，Changsha，2006:424-431.

［24］缑锦，杨建刚，蒋云良，等. 基于元信息和本体论的知识融合算法［J］. 计算机辅助设计与图形学学报，2006，18(6):819-823.

［25］ ERIC GREGOIRE. Fusing Legal Knowledge［C］//In:Proc.of the 14th IEEE int.Conf on Information Reuse and Integration.Les Vegas，2004:522-529.

［26］STUART RUSSELL，PETER NORVIG. Artificial Intelligence［M］. 北京:人民邮电出版社，2010.

［27］KUO T T，TSENG S S，LIN Y T. Ontology Based Knowledge Fusion Framework Using Graph Partitioning［M］.Heidelberg:Springer，2003，2718:11-20.

［28］MARTENS D，BAEKER M D ，HAESEN R，et al. Ant-Based Approach to the Knowledge Fusion［M］. Heidelberg:Springer，2006，4150:84-95.

［29］LASKEY K B，COSTA P C G，JANSSEN T. Probabilistic Ontologies for Knowledge Fusion［C］//Proceedings of the 11th International Conference on Information Fusion，Cologne，2008:1-8.

［30］XIE N F，CAO C G，GUO H Y.A Knowledge Fusion Model for Web Information［C］//Proceedings of IEEE/WIC/ACM International Conference on Web Intelligence，Compiegne Cedex，2005:67-72.

［31］韩立岩，周芳.基于D-S 证据理论的知识融合及其应用［J］.北京航空航天大学学报，2006，32(1):65-68，73.

［32］徐赐军，李爱平，刘雪梅. 基于本体的知识融合框架［J］.计算机辅助设计与图形学学报，2010，20(7):1230-1236.