展会文献数据库建设中的 IT问题探讨

2012-04-13 03:17厦门市集美图书馆技术部福建省厦门市361021
河北科技图苑 2012年2期
关键词:建库文献数据库标引

厦门市集美图书馆技术部〔福建省厦门市 361021〕

金石亻全*

在现今的信息化时代,作为站在信息前沿的图书馆行业来说,应该充分利用好互联网这个庞大的平台来更好地提供文献信息服务。目前,全国许多公共图书馆都如火如荼地推出了不少具有地方特色的自建文献信息数据库,极大地丰富了各地公共图书馆的馆藏和知识体系。从互联网信息角度看,这种状况则是增加了很多公益性和权威性知识与信息提供方,极大地方便了读者获取知识与信息,也使一些地区的特色文化得到了很好的保存和推广,又提高了公共图书馆的社会效益,实现了读者文献信息和公共图书馆的多赢。作为一个积极参与数字化建设的地方公共图书馆——集美图书馆也开展了对厦门地方特色展会文献自建数据库的研发工作。本文将对展会文献建库过程中的 IT问题谈谈自己的看法。

一、展会文献信息数据库建设中的硬件基础

(一 )扫描仪

由于展会文献一般用的是铜版纸,色彩丰富,幅面以 A4和 A3居多,因此在选择扫描仪的时候必须考虑到这种文献特性。选用彩色CCD元件,扫描 A3幅面的扫描仪,光学分辨率高达 600DPI,可以进行多种灰度模式的扫描,接口为最新 SCSI版本。考虑到展会的会刊文献一般都比较厚,选用零边距扫描仪为佳。

(二 )服务器

服务器是数据处理和存储的核心。服务器必须有很强的稳定性以保证数据处理和存储的安全,要有足够的 CPU与内存,总线性能优秀可以保证数据处理的效率,必须有强大的系统兼容性来保证各种软件的安全运行。数据库建成后一般都要长期保存与使用,因此良好的可扩展性也是服务器的必备要求之一。还应该考虑到对应的服务器生产商提供的技术支持和售后服务。

(三 )存储

从根本上说,数据库建设就是数据存储工作。在展会文献纸质文献数字化中产生的数字图书本身一般都比较大,比一首 MP3歌曲要大得多。首先带来的问题便是存储容量要足够大,以保证今后数据添加时有足够的存储空间,至少也必须是可以扩展的存储。其次,数据的安全性与可靠性必须给予足够的重视,存储必须稳定而易用。采用磁盘阵列、支持速度较高的 SATA硬盘接口以及 IP-SAN或者 NAS存储,以充分利用馆内的千兆网络来分布服务器和存储,达到负载平衡和较高水平的合理化存储。

(四)网络建设

网络是数据库发布的最方便快捷的途径,必须以带宽大、出口稳定、内部局域网交换稳定、速率高为标准进行建设。出口可以采用光纤接入主流网络。为了满足数据库海量数据的传输要求,馆内局域网应构建千兆级的内部网络,以便无缝连接服务器和进行数据存储。

二、数据库建设系统的选择

目前,比较主流的数据库建库平台有清华同方TPI专题数据库制作与管理系统、北京拓尔思 TRS信息雷达系统、清华文通IT-CENTER系统等。这些建库系统,都具有覆盖整个建库流程的一整套功能强大的软件平台,包括扫描软件、OCR识别模块、数据库发布平台、Web发布和检索平台。结合展会文献数据库和图书馆工作人员结构的特点,遵循标准化、开放性、稳定性、易用性和可扩展性原则,展会文献数据库建设最好选用清华同方 TPI专题数据库制作与管理系统。

清华同方TPI专题数据库制作与管理系统是一套基于网络平台进行知识仓库创建、生产、管理、维护和发布的工具软件系统。 TPI是一套相对成熟的软件体系,能与CNMARC数据兼容。这一建库系统拥有OCR工具、bookshop电子书加工工具、CPS内容发布工具、TPICD光盘发布工具、Data Processing元数据加工工具,以及服务器端的Kbase和服务器管理工具。此外,其多个数据并发的特点,可以满足建库过程中工作人员之间的协作要求。Web发布页面自定义功能丰富,可以自定义出简洁、高效与易用的页面 ,提升数据库系统的易用性。

三、展会文献数据库建库方案

(一)不同介质文献的入库流程不同

1.纸质文献。首先由采编部工作人员对进入图书馆的图书进行分编处理,做好 MARC数据录入,使之入库成为馆藏;再交由数字化部门对纸质文献进行图片扫描与校正;再按一定的压缩比率,在兼顾清晰度、OCR识别程度和文件大小的要求下,压缩成 CAJ或者 PDF格式的目标文件;然后在自建数据库发布平台上,建立相应的数据库,对具体条目进行标引入库;最后,检验数据,建立导航,发布数据。

2.电子文献。包括电子文档、图像、音频、视频等格式的文献。由自建数据库研发工作人员在互联网上搜集获取,或者向相关文献收藏单位通过索取、获赠与购买等方式搜集相关的电子文献信息,包括网页内容、PDF文件、WORD文件、TXT文本文件、MP3/CD音频与VCD/DVD/光盘等各种电子档文件,转换成展会文献数据库平台所需的电子格式,再进行细致的标引入库。

(二)TPI展会数据库中的元数据标引

纸质文献在分编进入 IlasII系统形成馆藏的同时,IlasII系统中也就相应地拥有了符合标准的MARC数据。 TPI系统能够兼容MARC数据格式,可以直接将元数据导入TPI数据库中。但是,并非所有的 MARC数据字段都适合导入 TPI数据库。例如,页数、价格等字段就不导入 TPI数据库中。从IlasII导入的这些元数据显然还不能够满足 TPI数据库的建库要求。 TPI的元数据能够更好地向读者揭示文献的各方面属性,以及描述数据之间的关系。根据展会文献的特点,可以采取在 TPI数据库中增加“展会分类”、“全文”、“网址”、“展会届期”等字段,细化标引“主题词”字段。其中:展会分类、展会届期字段主要用于整个数据库导航树的建立;主题词细化标引主要用于揭示数据之间的关系,是数据库中数据挖掘的必要步骤。

(三)完善全文字段元数据标引规范

展会文献是具有宣传性质的档案文献,包括各类参展商资讯、政策宣导、法律法规、主办者信息与展会风采等内容。全文字段的主要功能是给数据库使用者提供更加全面的检索途径,但是综合考虑展会文献的性质和检索效率,并不是将展会文献的所有文字都应该进行全文字段标引到数据库中。因此,如何标引全文字段在整个展会文献数据库建设过程中是很关键的。展会文献数据库建设是个创新性的工作,在目前并没有可以借鉴的项目。因此,集美图书馆在建库过程中,坚持以面向读者需求为出发点,从读者的角度观察发现读者的需求,从版本形式上一步步完善全文标引规范,形成了以下一些具有可操作性的规范。这些规范,对于工作人员之间的协作和效率的提高,都有显而易见的效果。 (1)对于产品宣传类的彩页资料,数字化工作组提出需要标引入全文字段的有:公司的中英文名称,主营产品,产品类别、型号,公司地址等。 (2)对于招商引资类的资料,需要标引入全文字段的有:招商项目及介绍、招商地区、招商地区投资环境、招商优惠政策,以及对应的英文内容。 (3)对于人居楼盘类资料,需要标引入全文字段的有:楼盘名称、开发商名称、地理环境、周边设施与地标性建筑等内容。(4)对于旅游推介类资料,需要标引入全文字段的有:旅游地名称、地理、历史、宗教、文化、气候、经济、政治、语言、民族、主要城市、交通等相关有用信息的中英文名词。 (5)对于展会杂志、会刊类资料,需要标引入全文字段的有:杂志名称或会刊期数与目录(文章标题)等概略信息。 (6)对于刊登有很多厂商信息的类似于黄页性质的会刊,比较常见的,如中国石材展会刊和海峡两岸机电台交会会刊,数字化工作组提出,可以建立相应的企业数据库,目前集美图书馆已经建立有石材企业数据库和台交会企业数据库,共收集近 2000条数据,具有很大的社会效益。

(四)集美图书馆展会文献数据库简介

经过摸索实践,结合厦门几大展会的特点,集美图书馆目前已经形成了九八投洽会、国际石材展、机电台交会、中国人居展、中国橱柜展、海西汽博会、两岸文博会与厦门世博会等几个主要的厦门展会数据库。每个展会数据库按媒介介质的思路又分成几个数据库。以九八投洽会为例,纸质文献数字化后完成标引,形成了九八投洽会书籍文献库;电子文档从互联网等各处收集起来,经过格式转换到目标 PDF文件之后标引入库,形成九八投洽会文献资料库。从横向关系上,两个文献数据库之间通过题名、责任者、主题词与全文字段可以进行跨库检索,形成一个统一的检索结果呈现给读者;从纵向关系上,两个文献数据库都有展会分类和展会届期字段,这两个字段用于形成数据库导航树。读者可以先点击整个展会数据库根目录,展开来呈现出以上的八大展会导航树,接着点击具体的展会数据库,展开以展会届期为分类的二级树,清晰明了,易于使用。

四、结 束 语

通过展会文献数据库建设,集美图书馆深刻体会到:以中小型公共图书馆的技术和人员力量要做出一个能够展现专业水平和社会效益的自建数据库需要付出更多的努力和精力,需要持续摸索改进,需要多方学习吸收好的经验,亦需要大家同心协力、耐心细致,以负责认真的态度持之以恒地长久工作,才能完成任务。但是,这是公共图书馆人在信息时代的开创性工作,是很有意义的一项重要工作。

[1]王天亮.文献数字化技术在自建数据库中的应用策略研究 [J].现代情报,2009,29(12):135~ 138.

[2]吴涛,李锋.基于 TPI的特色数据库建设实践 [J].现代情报,2005,25(7):165~ 168.

[3]赵捷,芦晓,张金治.地方文献数字化的实现方法与途径[J].数字与缩微影像,2007,(2):1~ 4.

[4]姚宏伟.地方文献数字化及在我馆实践的探讨 [J].图书馆学研究,2004,(11):13~ 15.

猜你喜欢
建库文献数据库标引
《感染、炎症、修复》杂志检索数据库
《感染、炎症、修复》杂志检索数据库
档案主题标引与分类标引的比较分析
本刊对来稿中关键词标引的要求
面向建库与制图一体化的规则研究
论我国学术文献数据库的质量调控
中文期刊回溯建库的实践与思考——以贵州省图书馆为例
中文文献数据库中撤销论文的分布规律研究
本刊对来稿中关键词标引的要求
建设用地节约集约利用评价数据库建库流程:以西安市为例