“南海及南海诸岛”特色数据库建设研究*

2015-12-31 09:13刘应平
图书馆论坛 2015年5期
关键词:南海诸岛功能模块古籍

李 敏,刘应平

0 引言

南海是我国南部海疆,南海诸岛是南海上东沙群岛、西沙群岛、中沙群岛和南沙群岛等珊瑚岛的统称[1]。大量文物和史料证明南海诸岛由中国人发现、命名、开发和实施行政管理[2]。由于南海及南海诸岛存在巨大的资源价值和战略意义,周边国家频频滋扰,对我国海洋权益造成极大损害。随着周边国际局势的复杂化和南海争端的尖锐化,南海问题成为社会关注的热点,对南海及南海诸岛经济价值、战略价值、军事价值和文化价值的认识和关注不断加深,对该地区信息资源的需求逐渐被激发出来。

一般而言,关注南海问题的社会群体包括政府机构、科研人员、新闻媒体以及社会公众四个部分。从信息需求的特征而言,他们存在着差异:政府机构偏重法律需求,即希望通过外交谈判和国际诉讼等方式为南海主权归属寻找理据;科研人员偏重研究需求,即希望通过科学的方法,找到新突破,形成新观点;新闻媒体偏重于宣传需求,即希望通过对南海问题的宣传报道,向社会公众纵深展现南海问题的历史背景,增加新闻报道的立体性;社会公众偏重于知识和文化需求,即客观认识南海问题。法律需求和研究需求更注重信息资源的真实性,宣传需求和知识文化需求更注重信息资源的丰富性,这要求“南海及南海诸岛”材料的搜集整理要兼顾原始真实和兼容并蓄两个原则,同时符合易查易用、对社会开放的要求。从这个角度看,建设“南海及南海诸岛”专题数据库不仅必要,而且需要图书馆这样的专业机构来组织实施。

我国图书馆界历来重视南海资料的搜集工作。20 世纪40 年代,杜定友等搜集南海资料,编辑《东西南沙群岛资料目录》,其中的500 多份资料来自广东省图书馆[3]。海南是我国最南端的省级行政区,由海南的图书馆建设“南海及南海诸岛”数据库更有优势。在该数据库中,古籍资源是非常重要的组成部分。海南现存1,700 余种古籍,其中海南师范大学图书馆(以下简称“海南师大馆”)藏量约760 余种,位居海南8家重点古籍藏书单位之首。该馆在特色馆藏方面具有较为丰富的建设经验,已建成“渡海解放海南岛战役”数据库、“海南历史文献”数据库等8个特色资源库,拥有较成熟的数据资源平台。因此,由海南师大馆牵头建设“南海及南海诸岛”数据库具有地缘优势、资源优势和经验优势。

1 “南海及南海诸岛”数据库的资源整合

1.1 用户需求及文献资源现状

政府机构、科研人员、新闻媒体和社会公众等四类对“南海及南海诸岛”较关注的群体对信息的偏好和应用方式不相同,这决定了数据库资源建设要保证数字资源真实准确、易于检索、标引清晰、可读性高、内容丰富,需求分析如前所述。

基于这样的文献特征要求,海南师大馆联合海口、文昌、琼海、三亚的图书馆、档案馆、博物馆、史志办、新闻媒体、南海研究机构等单位,对“南海及南海诸岛”特色资源进行调研。从搜集到的数据资源看,资源类型覆盖古籍、图片、视频、地图、档案、年鉴、调查报告、统计、图书、论文等十类,其中古籍600 余种、地图600 余幅、论文17,000 余篇、年鉴600 余篇、图书1,000 余册,档案等类型数据资源也较丰富;学科内容涵盖政治、法律、军事、历史、地理、经济、文化、生物、环境、安全;时间跨度为历朝历代;语种包括汉语、英语、日语。海南师大馆有关南海及南海诸岛历史风貌文献信息的数据类型多样,文献内容丰富,源流清晰,独特性较强,具备满足目标用户文献信息需求的基础资源;从文献资源特征看,兼具真实性和丰富性,尤其是古籍资源和口述历史资料的独特性鲜见,具备建设专题特色数据库的条件。

1.2 资源整合方式

图1 基于用户需求对数据库资源整合方式的设计

特色数据库的资源类型分为古籍、图片、视频、地图、档案、年鉴、调查报告、统计、图书、论文。图书、论文、年鉴等类型较为常见,在数据库中按照通行的著录和整合方式处理,只对年鉴、地图册等在著录中标引相关内容的页数。古籍、地图、视频和档案由于要兼顾用户易查可考和真实准确两类需求,须将其建设成为图像化(视频化)和全文化兼具的数据库。因此,“南海及南海诸岛”数据库采用数据对象和元数据结合的方式来进行资源整合,其中,数据对象是指通过光学扫描技术(OCR)以图片格式存储的古籍等图像信息或视频、音频文件;元数据是指对数据对象进行著录标引所形成的数据,这些数据能够通过建立索引和个性化功能模块的方式,以帮助用户实现主题检索和个性化定制服务的功能,见图1。

2 “南海及南海诸岛”数据库结构设计

2.1 技术标准

海南师大馆拥有较丰富的特色数据库建设经验,建有海南历史文献多媒体库、海南现代文学馆、海南方志数据库、海南历史文献论文库、海南抗癌药用植物数据库、海南历史文献图片库、渡海解放海南岛战役史、黎族研究著作论文索引等。这些特色数据库都是在图书馆已建成的Apabi 数据库资源平台上进行功能和模块设计,该平台能够提供中图法导航和全文检索,应用OAI- PMI 元数据收割协议,通过XML 编码的字节流应答收割请求,提供结构化的信息[4],从而实现CALIS 数据仓储格式,支持跨库检索。海南历史文献多媒体元数据封装采用METS 协议,将“描述元数据块”和“管理元数据块”中的元数据链接到“文件列表块”和“结构图块”中对应文件、文档或是编码上[5]。METS 协议支持CALIS元数据收割协议2.0 版本,实现数据库多种格式电子资源的存储与管理,同时支持标引模版实时调整,支持对已发布的数据标引字段进行新增或删除,为建立更为丰富的元数据语义提供了可能,也是目前自建特色数据库较常用的技术标准。

2.2 数据资源存储

“南海与南海诸岛”数据资源由四部分组成,一是古籍和民国时期文献数据,二是地图等图片数据,三是视频数据,四是建国后文献资料。其中古籍文献数据和民国时期文献数据由于内容均采用繁体字,易出现异体字、通假字等,因此采用数据对象和元数据对应的存储方式;地图等图片数据以及视频等数据由于数据对象格式的问题,也需要采取类似的存储方式,三者都可以通过元数据实现文献的全文检索功能,同时能够展示文本、图片及视频的原貌。建国后文献资料采用OCR 技术直接实现全文检索。

所谓古籍的数据对象是指将纸质版扫描存储的图片格式的纸质文献,每页纸质文献都会有对应的元数据对其进行标引,内容包括“题名”“主要责任者”“主要责任者责任方式”“次要责任者”“次要责任者责任方式”“摘要”“主题词”“学科”“中图法分类号”“所属地域”“版本信息”“成书时代”“页码”“原文”“译文”“资源类型”“标示符”“语种”“馆藏信息”“权限管理”“目录”等。建国后的文献资料可采用一般文献的标引方式,通过索引支持主题、分类等族检索。

地图等图片数据以及视频数据可参考古籍数据对象的存储方式,标引内容大致相同,但考虑图片、视频信息的特性,增加“文字说明”标引项,针对其中重大研究意义或佐证价值的内容进行标注,如对《袖珍地图集》中增加“页36,有标明西沙群岛归属中国的注记”的著录内容,使有需要的用户能够快速准确地定位所需文件。索引则可通过题名、责任者、主题词、学科、中图法分类号、所属地域、版本信息、成书时代、文字说明等分别进行建设,为用户的多层次需求的族检索提供技术支撑。同时该数据库还可以通过用户定制实现自定义的索引设计,满足用户的不同需求。

2.3 数据关系构建

基于“南海与南海诸岛”特色数据库的数据类型,可以将数据库的表单分为三类,即数据表单,包括元数据表单和数据对象表单;用户表单,包括用户名、用户密码、作用域等信息;操作表单,包括数据库中的各项功能模块,并通过作用域与用户表单相连,如图2 所示。由于数据类型不同,著录内容存在差异,因此,图示仅为示意内容,具体表单内容根据具体情况会有少许差异。其中管理员的作用域可以覆盖操作表单中的所有功能模块,而普通用户的作用域只能作用于索引和个性化功能模块,以确保数据库资源的准确性。同时要重视数据库反馈信息渠道的建设,使用户的意见能够及时反馈给管理员,及时对数据库中的内容进行更新调整。

图2 “南海及南海诸岛”特色数据库数据关系结构

3 “南海及南海诸岛”特色数据库功能模块编码实现

考虑数据库功能模块中,以古籍、图片和视频为代表的数据整合较为复杂,需要设计元数据表和数据对象两部分内容,三者功能模块设计的内容相类似,因此只列举古籍数据的设计编码方案,其他不赘述。

3.1 增加模块

该功能模块包括创建元数据和数据对象,用于新建数据,其数据库编码设计如下:

3.1.1 创建元数据表

3.1.2 创建数据对象表

3.2 插入模块

插入功能模块包括插入元数据和数据对象两部分,用于在已建成的数据中插入新的数据信息,其数据库编码设计如下:

3.2.1 插入元数据

Insert into baseData values(“题名”“主要责任者”“主要责任者责任方式”“次要责任者”“次要责任者责任方式”“摘要”“主题词”“学科”“中图法分类号”“所属地域”“版本信息”“成书时代”“页码”“原文”“译文”“资源类型”“标示符”“语种”“馆藏信息”“权限管理”“目录”)

3.2.2 插入数据对象

Insert into dataObject values(“标示符”“元数据ID”“索引ID”)

3.3 修改模块

修改功能模块包括修改元数据和数据对象两部分,用于在已建成的数据中修改数据信息,其数据库编码设计如下(以修改《酉阳杂俎》为例):

3.3.1 修改元数据

UPDATE baseData SET title= '酉阳杂俎1',author=‘段成式’,publishYear= 1633,Identification= 00000000……

3.3.2 修改数据对象

UPDATE dataObject SET title= ‘酉阳杂俎1’where Identification= 00000000……

3.4 删除模块

删除功能模块包括删除元数据和数据对象,用于已建成的数据中删除数据信息。由于数据库通过元数据实现对数据对象的检索,因此如果删除元数据,数据库中可保存数据对象,但是无法实现检索功能。这也是数据库需要对不同用户的作用域进行限定的原因,避免普通用户因为误删,造成数据对象无法被检索。数据库编码设计如下:

3.4.1 删除元数据

Delete from baseData where Identification=‘1198000288’

3.4.2 删除数据对象

Deletefrom dataObject wheretitle=‘题名’

3.5 索引和个性化模块

索引功能模块只包括元数据索引,用于对元数据的快捷检索,并通过元数据关联到对应的数据对象,用户可在资源库属性对话框的资源库页中,查看资源库中资源的情况。并可在此页面中用户可进行新建索引、更新索引的操作。其数据库编码设计如下:Create Coustered baseDataI ndex On baseData

个性化模块通过模板编辑方式来实现,如图3 所示。在对话框中,用户可对资源库模板添加字段、修改字段、删除字段、引用模板、导入模板、导出模板、调节字段顺序。

图3 个性化功能模块高保真示意图

4 结语

“南海及南海诸岛”数据库是高校馆结合社会需求和自身资源特点建设的特色数据库,整体功能和结构设计全部从用户需求出发建构,能契合政府机构、科研人员、新闻媒体和普通公众四类用户的不同需要,不仅可提供全文检索,还可全面展现文献原貌。由于该数据库是依托海南师大馆特色数据库平台建设的子数据库,因此采用C/S 模式,而客户- 服务器模式的数据库更适合用户较为集中、应用模式较固定的数据库建设。未来随着“南海及南海诸岛”特色数据库的推广,公众应用越来越广,由于用户相对分散,C/S模式的缺陷可能会逐步显现,使用数据库须先安装客户端的做法会给用户操作带来麻烦,也不利于丰富数据库的应用模式,阻碍二次开发。随着数据库安全技术的发展,未来“南海与南海诸岛”数据库不仅要不断丰富资源,而且可以尝试B/S 模式的数据库技术,支持WEB 开发,避免繁琐的数据库端口下载步骤,更为灵活便捷,适合数据库在社会群体中的推广。

[1] 流沙.我国的南海诸岛[J].广东师院学报(自然科学版),1975(1):118- 136.

[2] 鞠继武.南海诸岛地名的初步研究—南海诸岛自古以来是我国领土的古地名证据[J].南京师院学报(自然科学版),1981(2):72- 82.

[3] 刘应芳.论杜定友对南海诸岛资料的整理及研究[J].图书馆,2013(2):87- 89.

[4] 王宇芳,黄镝,李晓玲,等.OAI_PMI 协议及应用新趋势[J].现代情报,2006(5):82- 83.

[5] 程妍妍.国际电子文件元数据封装方法VEO 和METS的比较研究[J].现代图书情报技术,2011(10):7- 11.

猜你喜欢
南海诸岛功能模块古籍
中医古籍“疒”部俗字考辨举隅
关于版本学的问答——《古籍善本》修订重版说明
吉林一号光谱01星黄岩岛影像图
关于古籍保护人才培养的若干思考
我是古籍修复师
论中国对南海诸岛享有主权的法理及南海九段线产生的由来
纪念中国收复南海诸岛70周年图片展在海口举行
基于ASP.NET标准的采购管理系统研究
输电线路附着物测算系统测算功能模块的研究
功能模块的设计与应用研究