论图书馆特色馆藏资源数字化的价值和方法

2020-07-04 03:09李晶晶
卷宗 2020年10期
关键词:版权数字化

摘 要:将珍贵馆藏数字化是新时代公共图书馆特色化提升影响力的有效途径,体现了现代科技与传统文献知识信息的结合,更凸显了传统图书馆的发展要求,顺应了历史发展趋势,为特色珍贵文化传播打开了新的信息传播途径。

关键词:特色馆藏;古籍文献;数字化;OCR识别;版权

Abstract: The rare collection is the new era of digital public libraries characteristics of an effective way to enhance the impact of embodied knowledge of modern information technology and documentation as well as traditional library development requirements,conforms to historical trends,featuring precious cultural communication open the new information and communication channels.

Keywords: Special Collection; ancient literature; digital; OCR recognition; copyright

进入21世纪,人类便步入了数字化信息时代,在全新的数字化生活中,人们提出了全球化的主张,而实现全球化的重点就是构建起一个能够保存和传播人类文明、保证信息传播便捷的数字化地球,这也为数字图书馆的建设发展带来了机遇,馆藏数字化是网络世界对图书馆这样一个强大的信息存储、处理和服务体系的迫切需求,如果图书馆能够以自身馆藏资源为原料,生产出更多样的信息产品,那么就可以更好的满足新时代的需要。这种现代信息技术与图书馆的完美结合,能够有效地提升图书馆的信息服务能力。而要想有别于众多数字图书馆体现自身特色,那就唯有在数字化馆藏中重点将资源特色化,有针对性的应对读者需求。

近年来,图书馆馆藏资源的电子化、虚拟化、特色化问题受到了图书馆界与相关人士的积极关注和研究,对这种特殊的数字化馆藏所具有的不受地理位置和时间限制,仅通过相互连接的计算机网络,把分布在世界各地各具特色的数据库和知识库有组织的互联,并能够超越了空间和时间的约束的借阅方式报以极大地热情,这也是时代冲击下,图书馆被推到数字化变革的发展浪头上的结果。

1 图书馆馆藏资源电子化、虚拟化、特色化具备了传统纸质馆藏不具备的大量优势。

1)可以轻松解决资源跨时空限制,实现超大规模知识的集成化、网络化。图书馆馆藏资源电子化、虚拟化是数字图书馆的基础,它将存贮在传统物质介质上的图、文、声、像等信息转化为具有声、光、图像、影视等多媒体形式,存储的载体也相继转变成了更加方便携带的光盘、硬盘,这些数字化资源通过网络系统服务器设备(域名服务器、代理服务器、光盘塔服务器、打印服务器)、网络交换设备(中心交换机、工作组交换机)、远程通讯设备(远程访问服务器、路由器)等方式实现资源的跨地域传输。同时,利用这些资源和设备还可以实现与其它数字网络对接、馆藏资源互借互补,既能使各个图书馆通过网络交换数字化馆藏,又可以使大众方便的使用到分散在不同城市的图书馆信息资源。

2)数字化后的馆藏资源对传统文献资源的检索方式起到了极大地拓展作用,不但可以将过去流通率不高的珍贵文献古籍善本再生,而且还可以实现用很低的成本将印刷版的书籍报刊逆向生成排版文件,令图书馆文献检索实现了智能化,打破传统文献检索的局限,用户只需懂得一些基本电脑操作方法,就可以在短短的四到五秒左右的时间里检索到自己所需的资料。

这些传统形式仅能间接地查找到馆藏资源分布,而不能得到具体内容(如图1所示传统检索形式)。馆藏资源数字化后,可以按检索者的特定方式对所查的文献进行智能分析,并且还可以自行组织和编辑,不仅速度快,而且查找准确率高,实现了以往不具备的全文检索、文本摘录、多级导航等功能。甚至达到了对多媒体的图像、视频进行颜色、灰度、大小的检索;对声音的音调、曲调、旋律的检索,大大增强了检索形式的多样化。

3)图书馆特色馆藏资源数字化后可以更方便存储,特别是对珍贵文献资源的数字化后,就能更好的保护珍贵资源。随着高密度存贮技术的发展,一块1TB的硬盘上就可以记录上万本书籍,这样大的数据贮存不但携带方便而且更便于保存。

4)数字化信息的存储、传输,不仅成本低、效率高,而且能够适应排版、网络数据处理等不断发展的需要。目前我国有很多历史遗留下来的大量书籍善本、报刊杂志等纸质珍品急需保护性数字化备份。备份后不但能把前辈留下来的古老文献,利用现代最新科技,通过数字化处理让其焕发出新的活力,而且也为古籍资源的保护和开发提供了便利条件,将那些过去秘不示人的“镇馆之宝”转化成数字资源,可以令更多的读者欣赏到珍贵的古籍资源,丰富了借阅渠道和文化传播途径。

2 数字化特色馆藏可以实现资源互补、二次馆藏,有利于文化的交流和傳承

数字化馆藏并非将图书馆的馆藏资源都进行数字化加工处理,而是重点突出特色化的馆藏资源,每个图书馆都有自身的特色馆藏,能将这些特色馆藏进行数字化,不但有利于图书馆文献资源的保护,而且利用网络技术还可以实现将分布在各地的大量特色数字馆藏资源共享,使人们能够有机会欣赏到更多、更珍贵的资源。纵观目前各个图书馆构建的数字馆,基本上都是千篇一律,不但更新慢而且可以突出自身馆藏特色的很少、缺乏针对性,大多都链接各种数据库,如:超星数据库、中国学术期刊数据库等。数字图书馆缺乏特色化、针对性的馆藏,是目前制约数字图书馆发展的瓶颈。

3 数字化信息的处理技术

对图书馆书籍数字化技术的研究工作吸引了大批的人才和资金,近年来,获得了大批具有我国自主知识产权的技术成果,现就书籍数字化技术做简要论述:

数字化加工的流程图:

1)从纸质资源到数字资源,最关键的第一步就是图像的扫描和获取,扫描仪在扫描前都需要针对不同的书籍进行分辨率的设置,分辨率是和图像相关的一个重要概念,它是衡量图像细节表现力的技术参数,它的单位是dpi(dot per inch)即指每英寸长度内的点数,该值越大扫描出的图形文件所占磁盘空间也就越多,即文件的大小与其图形分辨率的平方成正比。比如:对于书籍保存比较好的年代较近的书籍一般采用300dpi的扫描分辨率,但对于年代久远、纸质变色的古籍善本,可以适当将分辨率提高到500dpi。设置完分辨率,机器就开始进行逐点扫描并存储为图片,存储的格式可以是TIFF、JPEG、BMP等。

2)针对扫描后的图像中可能会出现的旋转、柔化问题,要对图像进行旋转复位、剪切、去污、调整亮度、对比度和色调、锐化等处理,其中亮度和对比度的调整对整个数字加工尤为重要,直接影响到后面的计算机文字识别。

3)图像处理好后,要想实现数字化资源的全文检索、文本摘录、多级导航以便检索者快速检索并查阅,对照图片进行文字输入是根本不可能的,这样会花费大量人力去录入,假如仅仅对处理好的图片进行关键字命名,也不可能实现全文检索。这就需要光学字符的自动识别技术(OCR)的帮忙了,它可以利用计算机将图片中的文字自动识别出来,并保存为文本格式,这种方式可以实现汉字信息的高速输入,只要将扫描并处理好的图像输入计算机,就可以通过OCR软件自动识别并转化为文本,不论是印刷体还是手写体的图像,都可以通过计算机辨认出来。

我国OCR技术的发展,起步于20世纪70年代末,虽然起步晚,但自1986年以后,我国文字识别技术(OCR)的研究在汉字建模和识别方法上都取得了创新性的丰硕成果。它的基本原理就是采用光电转换装置将图片中的汉字或字符转换成电信号,并送入计算机自动辨认,阅读,因此,汉字识别归根到底是图像识别问题。目前比较流行的OCR软件很多,英文OCR主要有Omnipage,中文识别主要有清华紫光OCR、尚书、汉王等,尽管汉字字量大,字形复杂,但OCR技术已经相当成熟,不仅能识别黑白印刷体汉字,还能识别灰度和彩色印刷体汉字,识别速度快,识别正确率达到99%以上,能识别宋体、黑体、楷体等多种字符的简繁体,并且可以对不同字号的文字混排进行识别,大大减轻了文字输入的劳动强度、节省了人力、降低了费用。

从图3中可以看出OCR软件的整个加工过程:图像处理模块集成了图像扫描,图像锐化等图像处理加工功能,提高扫描图像的清晰度。文字识别不能做到一目十行,版面划分模块就是自动将图像逐行分割,然后再一个字一个字的辨认,即单字识别后在进行合并,文字识别模块通过对不同样本汉字的特征进行提取,完成识别,自动查找可疑字体,并通过前后联想等模糊识别技术对较难识别的汉字进行弥补性识别。然后再通过文字编辑模块对识别的文字进行修改、编辑。

4)计算机识别并非不出错,以最新的汉王OCR易识全能图文识别系统软件为例,以每分钟录入6000字的速度,连续识别1000页保存完好的现代书籍文献,也会出现0.78%的识别错误率,虽然已经很不错了,但图书馆肩负着知识传播的责任,首要保证数字书籍资料的正确性,所以最后还需要专人辅助校验计算机识别的文字,并辅以人工排版、留下图书馆标识等。

4 图书馆馆藏数字化带来便利的同时也会伴随着数字化版权保护等问题

特色馆藏资源的数字化可以有效地提高公共图书馆的综合实力,提高图书馆的影响力。但是好多图书馆都心怀畏忌,主要是害怕特色馆藏数字化后被窃取、流失,这种因为安全而产生的恐慌只能导致图书馆数字化进程走向一个矛盾的极端。国家863计划专项研究专家组组长,中国工程院院士,何德全院士指出:“信息安全保障能力是21世纪综合国力、经济竞争实力、生存发展能力的重要组成部分”。每个馆“镇馆藏书”的价值都是无法估量的,将这些宝贝数字化后,一定会顾虑版权安全问题,其实大可以放心。数字馆藏的版权保护问题一直是开发数字图书馆研究的热点,目前做得比较成功的超星电子图书就是一个很好的例子,在纸张图文资料数字化技术及相关应用与推广方面都取得了长足进展。

数字版权管理(Digital Right Management)技术已日渐完善,特色馆藏数字化在技术上也相当成熟,目前我国对保护数字信息版权方面大多依赖加密技术解决非授权拷贝问题,实现对珍贵数字馆藏的加锁。特色馆藏数字化后,图书馆在坚持无偿服务于普通知识需求的同时,对增值性的或需要专门授权的珍贵特色书籍,可以采用有偿服务,通过那些对数字书籍版本支付的版权使用费,获得图书馆特色化服务和书籍善本保护的资金支持。例如,在网络上,将阅览权限进行有针对性的开放,可以实现有效的屏蔽无权访问者所进行非法获取馆藏数字资源的行为。细化到具体管理,图书馆可以利用办借阅证人员的实名认证,来确定用户的阅览权限的信用关系,对需要参阅珍贵数字馆藏的读者,可以开辟专用网络通道,并利用数字水印技术,避免非法复制和盗用,服务中可以适当收取服务费用,用于资源的维护和开发。

总之,将珍贵馆藏数字化是新时代公共图书馆特色化提升影响力的有效途径,体现了现代高科技和文献知识信息以及传统图书馆的发展要求,顺应了历史发展趋势,为特色珍贵文化传播打开了新的信息传播途径。古代先贤们留下的珍贵古籍善本和宝贵文献如果能利用现代科技进行数字化加工传播,无疑会使我国古文明焕发出新的生机。

参考文献

[1]杨向明.现代化图书馆钩沉[C].北京:中国广播电视出版社,2005.

[2]郭连生.读者失信行为调查分析与高校图书馆诚信教育[J].图书馆工作与研究,2008(8);72-74.

[3]刘乃强.关于我国基层图书馆的现状与思考[J].大学图书情报学刊,2009(6);6-9.

[4]鲁松,杨云.基于普适计算的智能图书馆系统的构建[J].情报杂志,2008(9);36-39.

作者简介

李晶晶(1980-),女,開封市图书馆。

猜你喜欢
版权数字化
数字化:让梦想成为未来
家纺业亟待数字化赋能
论经济学数字化的必要性
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
文化创意产业版权保护问题探析
数字化制胜