跨领域信息交换模型构建方法分析研究

2016-04-11 14:13冯勤群余文芳
电脑知识与技术 2016年4期

冯勤群+余文芳

摘要:在分析建立跨领域信息交换模型重要性的基础上,提出了信息交换模型构建的基本原则与建立过程,并以XML模式语言解释了信息交换模型的基本结构,详细论述了信息交换模型构建的组合方法、扩充方法、扩展方法和引入方法,最后指出了构建跨领域信息交换模型还需要深入研究的问题。

关键词:信息交换模型;模型重用;模型结构

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)04-0080-04

Research on Building of Information Exchange Model

FENG Qing-Qun,YU wen-fang

( PLA Academy of Defense Information , Wuhan 430010, China)

Abstract: After analysing importance of building of Information Exchange Model ,the basic principle and procedure of building Information Exchange Model are brought forward, and architecture of Information Exchange Model in XML schema is explained. The methods of building model by composing, creating, extending and importing are descripted with examples, and the problems in construction of Information Exchange Model needed researching are pointed out in the end.

Key words: information exchange model; model reused; model architecture

1 概述

跨领域信息共享是领域间高效合作的前提。尽管各业务领域已经建设了大量的数据资源,也形成了自己的数据标准,但是由于受历史条件的限制,这些数据资源相互独立,数据的异构性与重复性大量存在,数据利用率并不高。而随着应用的不断深化,打破数据资源之间的壁垒,在不同领域之间实现信息共享的需求也越来越迫切,信息交换模型为解决上述问题提供了一条切实可行的思路与途径[1]。信息交换模型的基本思路是通过以文本的方式来描述数据模型中的元素及其关系,并将具有一定功能的逻辑信息单元封装成组件形式,形成独立于技术与语言的一系列数据模型组件[2]。这样,在跨领域信息共享中,只需要利用信息交换模型来描述交换数据,保证信息交换双方都能够理解数据,达到信息交换的目的。信息交换模型的本质上是面向语义的领域本体构建,它是信息交换双方领域所需遵从的共同数据标准,它不仅可以提高数据建设的质量与效率,也能极大的提高信息交换与共享能力。

2 模型构建的基本原则与过程

描述数据模型的方法有许多,但是,要保证数据模型能够在跨领域之间被理解被重用,首先它的文件格式应该是为所有的平台和系统所接受。其次,它不仅应该能够适用于明确的应用领域,也应该能够适用于将来可能面临的领域,即要保证其能够适用于所有的应用环境,所以数据模型应该具有良好的自适应性和扩展性。另外,在信息交换模型的使用过程中,无论是专业的数据建模技术人员,还是对数据建模并不太了解的系统开发人员应该能够很容易的在实际中运用它。由于各领域内部都有自己的元数据标准,信息交换模型在某种程度上可看成“元”数据。目前,关于数据交换的标准有很多,无论是文字表述还是图形描绘,标准离实际的运用还有一个理解与转换过程,而作为面向信息共享的数据标准,数据模型重用还对其实施提出了要求,即必须保证该标准具有很强的应用能力,不需要通过对其进行格式转换,能够直接拿来使用,这也要求对数据模型重用有一套完整的方法保障和支持[3]。

2.1 基本原则

从上面的分析可以看出,作为不同领域数据建模的共同标准,信息交换模型应该具备平台独立性、内容完备性、语义一致性、使用灵活性与管理可控性等特点。

一是平台的独立性。平台独立性是指在对数据模型的描述方式上,不应该依赖于具体的系统平台、语言与技术,而要以一种所有平台与系统都能够解析的方式来描述数据模型。很显然,纯文本是最适合的表达方式。

二是内容完备性。完备性并不是要求对所有的客观世界对象及其关系进行完整描述,而是只要求能够充分描述信息交换边界中所涉及的内容。不同领域之间共享信息的背景千差万别,信息交换模型不可能对每一细节都描述清楚,但是,只需要对具有在领域内部或者领域之间形成共识的数据模型描述清楚,并提供扩展能力,使得在实际使用的过程中能够根据信息共享背景进行适当裁减和补充,能够建立具有完备性的面向信息共享的数据模型。

三是使用灵活性。灵活性是指能够根据建模需要,能够很容易在数据模型的基础上形成自己所需的模型。保证信息交换模型的灵活性就是要保证模型可扩展、可扩充、可引入、可组合、可屏蔽。可扩展是指当某个数据模型与实际信息交换背景的信息相比,不足以表达信息交换数据时,能够适当增加模型的元素,形成完整的交换信息模型。可扩充是指信息交换模型中还不能够充分表达所面临的信息交换需求时,可以增加新的数据元素。可引入是指可以通过对其他标准的数据模型进行适当改造,形成信息交换模型。可组合是指可以将重用数据模型中的两个或者更多个数据模型组合在一起,形成新的数据模型。可屏蔽是指当数据模型与信息交换需求相比,有部分冗余时,可以将不需要的部分元素进行隐藏,形成满足需求的数据交换模型。

四是语义一致性。一致性是指在信息交换过程中,交换双方对信息交换模型在语义上的一致性,保证数据的可理解,其本质是领域知识的共享和重用。

五是管理可控性。可控性是指数据模型是可管理的,数据模型组件可以注册、被发现、被搜索,组件可以全部或者部分的重用。可控性对数据模型的组织管理提出了基本要求,确保新增加的模型可以注册,可以提供模型搜索功能,能够了解模型的基本信息及适用范围等,这实际上对数据模型的元数据提出了要求。可控性还必须提供模型之间的关联,便于用户了解模型各元素之间的关系。

2.2 建立过程

要保证数据模型能够适用于跨领域信息交换,实际上是通过捕获相关领域的知识,确定领域内共同认可的术语,以及术语和术语间相互关系,并通过概念之间的关系来描述概念语义。基本过程如下:

首先是通过对各业务领域的数据模型进行抽象,形成具有普遍意义的核心数据模型。比如“人员”的基本信息,无论是金融系统,还是卫生系统或交通系统,都通过姓名(name)、出生年月(birthdate)、性别(sex)等属性来描述人员信息,那么,可以将这一部分模型集中组织起来,形成信息交换模型的核心部分,即核心数据模型(用c表示核心数据模型)。核心数据模型包含的内容是信息交换中最基本的内容,如时间、地点、人物和事件等。

其次,可在核心数据模型的基础上,按照各业务领域的特点与要求,建立各自领域的数据模型,如对于卫生领域来说,描述人员信息可能还需要知道其血型(blood),那么很容易通过对核心数据模型“人员”的继承与扩展来实现,形成卫生领域的“人员”数据模型(用m表示卫生领域)。在领域内部,还可以进行更细粒度的划分,采取同样的方式,形成更加详细的人员信息描述。这样,通过逐层的继承与扩展,达到数据模型重用的目的[4]。

卫生领域人员描述m:Person{ c:Person{c:name,c:birthdate,c:sex},m:blood}

第三,在具体的项目或者应用中,信息交换双方依据交换需求,通过引用核心数据模型和业务领域数据模型来建立信息交换模型。信息的发送方根据信息交换模型生成含有交换数据的信息交换包,并将其传递给信息的接收方,信息的接收方在接收到信息交换包后根据信息交换模型对包中的数据进行解析,实现对信息的理解,达成信息交换的目的。

为了保证数据模型在不同领域重用时模型元素语义的一致性,可以通过数据模型元数据注册的方式,提供对数据模型的搜索、发现、获取等服务,以供用户使用;在数据模型类型与属性的命名上,遵守严格的命名规范,如可以参照ISO/IEC11179-5《信息技术-元数据注册-命名与标识》标准,保证类型名称与属性名称组织严谨、良好的可读性与可控性;在数据类型的定义上,必要时增加元数据类型,提供对其语义的描述。用户可以通过搜索数据模型元数据,快速找到大致符合要求数据模型,并通过对其进行适当的修改形成满足信息共享的数据模型。

构造核心数据模型与业务领域数据模型可以参照本体构造方法来实施[5]。一般可以按照如下步骤进行6:1)进行领域分析,确定领域范围;2)识别资源,分析已有的本体(或者片段);3)选取出现频率最高的术语与定义;4)确定分类与关系;5)映射到相应的领域分类;6)扩展到实例层术语(词汇);7)专家反馈;8)修改完善;9)检验验证。

3 信息交换模型的组织结构

XML模式语言(XML Schema)是一种以纯文本方式来描述模型结构及相关规则的形式化语言。XML模式本身是一个关于数据类型及其关系的基础性框架,它借用了面向对象的许多概念,以分级分层组织的模式来表达对客观世界的抽象,XML模式完全能够用来描述面向信息共享的信息交换模型。XML模式语言提供了模式导入、模式引用、元素引用和元素替代与约束等语法,使得其也能够满足构建信息交换模型的基本原则。如果将面向信息共享的实体与实体之间的关系也通过模式(数据类型)来进行描述,那么,模式(数据类型)不仅代表了客观实体的抽象,也代表了客观实体之间的关系。

信息交换模型的定义必须符合XML模式语言规范。每个模式文件中,只有一个根节点schema,而根节点schema以下则包含有直接子节点annotation,import,complexType,element等,其中annotation子节点只有一个,其他的节点不作限制。如图 1所示。

图 1 模式文件的结构

annotation节点是对当前模式总的说明,它可以通过子节点documentation和appinfo对模式文件作进一步的解释。import节点说明了其所引用的其他模式文件,一般来说,可以通过属性schemaLocation和namespace来指定。complexType是对当前模式中的数据类型的定义,它规定了数据类型的属性及其顺序、值域等,它是模式文件中最重要的一部分内容。element定义了以当前模式生成实例时所对应的对象,它指明了对象的类型、是否可以忽略等特性。

4 信息交换模型构建的基本方法

信息交换模型在组织上应该按照XML模式基本模型、核心模型与领域模型的方式进行组织。而在信息交换模型的构建基本方法上主要利用XML模式语言的语法,采取组合、扩充、扩展和引入方式来创建新的数据模型。

4.1 组合方法

组合方法是指通过将模型中的部分元素组合起来,用其来描述一个全新的数据类型。组合方法为数据模型的重用提供了一种实现方式。实际上,模式中所有的数据类型的定义都运用到了组合方法,如对PersonType的定义,它就是将三个数据类型PersonNameType、PersonBirthDateType、PersonSex组合在一起而形成的数据类型,它们的关系如图 2所示。

图 2 组合方法示意图

4.2 扩充方法

扩充方法是在重用数据模型不满足信息共享要求时,根据实际需要建立新的数据类型的过程。在建立新的数据模型时,应使用独立的命名空间,保证在引用时能够与其他模型库中的类型区别,避免引起命名冲突,也便于将其提交给模型库中为其他的信息共享应用所使用。扩充方法通常与组合方法联合起来使用。

例如,在医疗服务中,某医护人员(PersonType)为病人提供个性化医疗服务,在模型库中并提供个性化医疗服务人员的数据模型,因此可以通过扩充方法和组合方法新建一个数据模型,如命名为ServiceProviderType。如图3所示。

图 3 通过扩充方法创建新的数据类型示意图

代码如代码片段 1所示。

代码片段 1

在使用扩充方法建立新的数据类型时,要注意的是,新的定义一定要符合XML模式语言规范,并引用XML模式中的相关类型和元素来定义的。另外,在考虑定义新的数据类型时,首先要在模型库中进行查找,能否有相同或者相似的类型的定义,如果是完全没有,则考虑定义新的数据类型,如果有相似的定义,则优先考虑使用扩展方法来定义满足要求的数据类型。

4.3 扩展方法

扩展方法是指通过对已有的数据模型增加新的属性或者屏蔽不需要的属性的过程。与直接定义新的数据模型不同,扩展方法也是一种数据模型重用手段。仍以医疗服务为例,通过扩充方法创建了提供个性化医疗服务人员的ServiceProviderType数据类型,但是,如果交换信息中包含有描述医疗服务人员所使用的手持终端通信设备,则可通过引用通信设备类型nc:TelecommunicationDeviceType来对ServiceProviderType进行扩展,即为其增加新的属性,如图 4所示。

图 4 通过扩展方法增加新的属性

代码片段 2

ref="tns:RoleOfTelecommunicationDeviceReference"/>

nillable="false" type="s:ReferenceType">

4.4 引入方法

引入方法是将其他数据标准的数据模型重新进行包装,形成能够面向信息共享的数据模型,并保证它能够与重用模型库中的其他数据模型进行信息交互。

在使用引入方法时,首先要说明其引入的外部数据标准,其次,在类型的属性声明中,引入其所要包含的属性。如果某一数据标准中,命名空间addr中定义有数据类型SingleSiteLandmarkAddress_type,并且定义了元素SingleSiteLandmarkAddress。其定义如代码片段 3所示。

代码片段 3

……

……

那么,可以通过引入方法,对其进行包装,形成新的重用数据模型。引入过程如下所示。

代码片段 4

……

在上面的代码中,geo:SingleSiteLandmarkAddressType所对应的实例文件则是通过引用addr:SingleSiteLandmarkAddress数据类型来描述数据,其所生成的实例文件如下。

代码片段 5

XXX

……

5 结论

随着信息化建设的推进与发展,各业务领域形成了自身的数据标准,但是领域之间的信息共享是挖掘数据资源宝藏的重要手段和必经之路,在不太可能形成一个大而全的数据标准条件下,探索跨领域之间信息交换的标准与方法,无疑具有很强的现实意义。而对信息交换模型的研究,在减少重复性的开发、降低开发费用、降低风险、提高开发效率与质量具有重要的指导意义。XML模式语言本身提供了足够的灵活性,如何充分利用,并建立一套完整的信息交换模型与具有实际运用能力的模型库,是需要进一步深入研究的问题。

参考文献:

[1] 贾利民.信息互操作系统理论与实现方法[M].北京:电子工业出版社,2013.

[2] 戴剑伟,冯勤群.美国国家信息交换模型及其启示[J].军事运筹与系统工程,2013,27(3):15-19.

[3] 章晓杭,马殿富.政务信息资源目录和交换体系总体框架探讨[EB/OL]. (2014-03-05).http://www.ciotimes.com/2008/0617/article200806120821.html.

[4] 全国信息技术标准化技术委员会SOA分技术委员会.智慧城市实践指南——SOA支撑解决智慧城市核心问题:共享和协同[M].北京:电子工业出版社,2013.

[5] Raymond J. Curts. Building An Ontology For Command & Control[C]. 10th International Command and Control Research and Technology Symposium, 2005.

[6] Mss. Leslie Winters. C2 Domain Ontology Within Our Lifetime[EB/OL]. (2009-06). http://www.dtic.mil/cgi-bin/ADA503107.pdf.