基于本体的高校基础数据组织研究

2012-10-20 05:39毛莉菊李恒贝彭其军
中国教育信息化 2012年5期
关键词:数据表科研项目原型

毛莉菊,李恒贝,彭其军

(南京农业大学 图书与信息中心信息应用部,江苏 南京 210095)

基于本体的高校基础数据组织研究

毛莉菊,李恒贝,彭其军

(南京农业大学 图书与信息中心信息应用部,江苏 南京 210095)

本文引入本体论,围绕人在学校中的活动进行本体构建,旨在探索一种系统的的挖掘、组织高校基础数据的方法,并在本体构建的基础上构建一个统一、规范的高校基础数据元数据集和信息标准,确定数据表结构,为共享数据平台构建提供支持。同时还通过本体构建,确立高校基础数据的管理准则。

本体;基础数据;数据组织;本体构建

一、引言

随着各高校信息化建设的进一步深入,信息化建设正从应用集成向信息集成迈进,这种信息集成是架构在信息资源网的基础上的。而信息资源网的基础即数据,可见如何有效地进行信息(数据)的组织、规范和管理是整个信息化建设的最基础工作。

二、高校基础数据的特点

1.信息量大,类型复杂多样

高校类似于一个小型社会,其管理及相关的实践活动非常复杂,产生的信息类别及信息量也就可想而知了。

2.不同职能部门间数据的依存关系复杂

3.各职能部门间的数据相互独立

在部门内部可能存在统一的数据管理基础标准,但在部门间却是不统一的。

4.基础数据源不明确

即来自不同部门或不同系统的数据谁是权威数据不明确。

如何有效地对高校海量的不标准的数据进行系统地组织、规范,实现数据的共享与互操作是目前高校信息化建设面临的难点之一。有些学校简单地从某个职能部门或业务系统入手采集、组织相关信息,没有从整个学校全局考虑,造成最后构建的数据基础标准不统一,如元数据标准、信息标准不统一。清华大学从划分职能域、建立业务模型入手,利用元数据方案进行数据标准制定其研究重点在于数据标准的制定。[1-3]本文尝试引入本体理论,利用本体构建方法来挖掘、梳理和组织高校基础数据,构建一个统一、规范的高校基础数据元数据集,制定统一信息标准,并为共享数据平台构建提供支持。

三、本体概述

1.本体的概念

本体的概念最早出现在哲学领域,从哲学的范畴来说,本体是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质[4],在计算机与信息科学领域,理论上,本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”[5]。或者说本体是特定领域中那些存在着的对象类型或概念及其属性和相互关系[5]。常见的本体构成要素包括:

实例(instances):代表元素,就是对象;

类(classes)或概念(concepts):对象的集合;

关系(relations):在领域中概念之间的交互作用,如子类关系;

函数(functions):特殊的关系,关系的前 n-1个元素可以唯一决定第n个元素。如Mother-of就是一个函数,mother-of(x,y)表示y是x的母亲;

公理(axioms):表示永真断言,如概念乙属于概念甲的范围;

事件(action):属性或关系的变化。

2.基于本体的信息组织方法

当前基于本体的信息组织主要有三种方式:单本体方法、多本体方法和混合本体方法。在单本体结构中,一个全局的本体为具体的语义说明提供了一个共享的词汇表,所有的信息资源都联系到这个全局本体上。而在多本体结构中,每个信息资源都有自己的本地本体,它们并不一定使用同样的词汇表,且每个本体都可独立发展。混合本体则是建立一个共享词汇表,而每个信息源则用本地本体描述,其优点是新的信息源可很方便地加入到源本体。[5]

四、高校基础数据本体构建

大学的根本是人,从大学的各项活动(主要是教学、科研和社会服务)来看,都是围绕人(学生、教师)而进行的,清华大学蒋东兴老师也提出新一代数字校园特征之一就是以用户为核心组织信息与服务。[6]所以在数据的组织上,先根据人员属性对人员进行分类,再对不同类型人员信息进行本体构建。由于高校数据源呈现多种多样的环境,本文采用混合本体结构来探究和构建高校基础数据。本体构建流程如图1所示。

1.领域本体构建

领域本体所建模的是某个特定领域,或者现实世界的一部分。它提供特定领域的概念定义、概念之间的关系、领域活动等。由于不同类型的人在同一活动中所扮演的角色是不同的,比如在教学活动中,教师与学生一个教一个学,两者所关注的信息对象是不同的,所以可分别按不同类型人员在学校的生命周期线上的各种活动来构建领域本体。如图2所示即是以教师为例所构建的领域本体。

2.原型本体构建

原型本体描述的是某一概念 (类)及其属性以及关系、约束条件等。如图3所示为科研项目原型本体。

3.本体整合与全校域本体综合分析

依据图1的本体构建流程,本体整合分原型本体与上层领域本体的整合及原型本体间的整合。通过本体对各项业务和全校域本体的综合分析,梳理各原型本体间的相互关系,对原先构建的一些本体进行整合。如通过对教师类本体的整合,发现:(1)职称评聘这一本体域与教师的教学、科研域等密切相关,即对教学、科研域的数据有依存关系。(2)科研项目本体与科研成果本体有关联,科研成果数据依存于科研项目,所以在各科研成果原型本体构建中要增加与项目相关的属性。如在论文原型本体构建中,增加“资助项目”这一属性。同时,通过对学校各项业务和全校域本体的综合分析,梳理各业务流间的关系,明确基础数据的源头,并制定基础数据管理的准则,即“谁产生谁负责,谁需要谁提出”。比如教师的科研项目数据,是由学校的科研管理部门对教师提供的数据进行审核后产生的,那么这一基础数据的元数据和信息标准(数据字典)由科研部门负责制定,整个基础数据的准确性也由科研部门负责。而人事部门在开展教师职称评审业务时,需要科研信息中哪些基础数据和这些基础数据中的哪些元数据,则应由人事部门具体负责提出。

五、基于本体的基础元数据构建及集成

构建本体的目的是通过本体构建挖掘、组织高校基础数据,构建系统规范的元数据集,制定统一信息标准,并最终通过关系数据库的构建进行数据集成,消除数据的异构性,实现数据共享。通过各原型本体的构建,可以系统地对高校基础数据中的元数据进行规范编码、明确各元数据的定义、约束条件、值范围等,并制定信息标准。表1为以科研项目本体中的属性为例构建的“项目类别”元数据。

表1 项目类别元数据

“项目类别代码”即项目类别的标准。标准的制定要遵循国家、教育部已有的、高校较为通用的标准,对于个别元数据值空间不好规范的,制定出校级参考代码,即校级标准。而原型本体与关系数据库的转换策略可以如下:

(1)原型本体里定义的一个类(概念)对应一个数据表。

(2)原型本体里定义的类的属性即为数据表中的字段。类的属性里,有objecttype类型,有datatype类型,对于objecttype类型的属性,须规定其domain和range值来指定与其有关联的表。

如以图3的科研项目原型本体可构建四个数据表:科研项目、项目负责人、项目参加人、项目经费。如表2和表3分别为科研项目和项目参加人数据表。

表2 科研项目数据表

表3 项目参加人员数据表

其中在表2中,objecttype类型属性字段有:项目负责人和项目参加人,其对应domain是“人事基本信息”,其需要的range为:姓名、工号、所在单位、联系电话、联系邮箱。而datatype类型中的“项目大类”、“项目类别”、“项目来源”的值空间是需统一规范的,即制定信息标准。通过全校域综合分析,可以对同类原型本体在构建数据表时进行归类整合。如研究生也参加了导师项目研究工作,其科研项目原型本体与教师的科研项目原型本体是相类同的,可构建同一个科研项目数据表,然后在项目参加人员数据表中增加“人员类别”字段来区分项目参加人员的身份即可。

六、结束语

本文引入本体理论,运用本体构建方法对高校基础数据进行系统地梳理和组织,构建了一个统一的、规范高校基础数据的元数据集和信息标准,为共享数据平台构建提供了支持。

[1]王映雪,蒋东兴,罗念龙等.信息资源规划的方法与实践[A].奋斗的历程,丰硕的成果(三).计算机与信息管理中心成立三十五周年论文集[C].北京:清华大学计算机与信息管理中心,2011:65-71.

[2]蒋东兴,佟秋利,蒋磊宏等.高等学校管理信息标准体系研究[A].奋斗的历程,丰硕的成果(三).计算机与信息管理中心成立三十五周年论文集[C].北京:清华大学计算机与信息管理中心,2011:82-88.

[3]高校信息标准呼之欲出-《Celts-33高等学校管理信息标准》全接触[A].奋斗的历程,丰硕的成果(三).计算机与信息管理中心成立三十五周年论文集[C].北京:清华大学计算机与信息管理中心,2011:76-81.

[4]王淼洋.东西方哲学比较研究[M].上海:上海教育出版社,1994:97-104.

[5]维基百科[EO/OL.[2011-7-20]http://zh.wikipedia.org/wiki/%E6%9C%AC%E4%BD%93_(%E4%BF%A1%E6%81%AF%E7%A7%91%E5%AD%A6).

[6]蒋东兴,金勤献,管志远等.大学资源计划管理思想探讨[A].奋斗的历程,丰硕的成果(三).计算机与信息管理中心成立三十五周年论文集[C].北京:清华大学计算机与信息管理中心,2011:21-28.

G203

A

1673-8454(2012)05-0015-03

(编辑:杨馥红)

猜你喜欢
数据表科研项目原型
Therapeutic efficacy and safety rating of Tui-Pushing chest-back manipulation for children with cough variant asthma
包裹的一切
围绕科研项目建立定密管理框架的探讨
航天科研项目评审工作的思考与探索实践
湖北省新冠肺炎疫情数据表(2.26-3.25)
湖北省新冠肺炎疫情数据表
湖北省新冠肺炎疫情数据表
基于列控工程数据表建立线路拓扑关系的研究
《哈姆雷特》的《圣经》叙事原型考证
论《西藏隐秘岁月》的原型复现