古典文献数字化的现状、问题与对策

2019-10-16 04:45左丹
新西部下半月 2019年8期
关键词:古籍数字化

左丹

【摘 要】 本文在区分古典文献与古籍概念的基础上,阐述了我国古典文献数字化的理论研究和实践探索。分析了古典文献数字化存在的问题,有针对性的提出对策:各机构应坚持高质量、独特性、效用型、多样性等选题原则;在技术实现过程中,要对文献内容进行深度挖掘;建立统一的标准规范体系;法律、技术、意识三方面做好知识产权保护;培养复合型人才;加强机构间合作。

【关键词】 古典文献;数字化;古籍

计算机和网络技术改变了人们认识感知世界的方式,为传统行业带来了方法革新。文字识别、全文检索、数据库等技術则为古典文献数字化提供了技术条件,使得古典文献保护和国学研究焕发新的生机与活力。

一、引言

1、古典文献与古籍

古典文献与古籍是两个极为类似但实质有所区别的概念,应对此加以区分。

古典文献,即加以历史限定的文献。《文献著录总则》把文献定义为“记录有知识的一切载体”,吴枫先生将古典文献定义为“五四运动前雕版、活字版和手抄的古籍文献,同时包括文书、卷册、碑铭、拓本等”。[1]在《现代汉语大词典》中,古籍指“古代典籍。泛指古书”,文献指“有历史价值或参考价值的图书资料”。由此可见,古籍专指古书,文献指一切资料,古籍是文献的组成部分。

古典文献与古籍的区别体现在载体形态与内容性质上。[2]从载体形态来说,文献从甲骨、金石、简牍、缣帛到纸张,形态多样,而古籍的载体多为纸张;从内容性质来说,甲骨卜辞、金石刻文都是重要的历史文献,这与多为册籍的古籍不同,同时,信札、契约、家谱等也不属于古籍的范畴。

由此应明确,古典文献的内涵大于古籍,古典文献数字化应在古籍数字化的范围上加以拓展。

2、古典文献数字化

当前,对于古籍数字化的概念界定已达成共识,是指以利用和保护古籍为目的,采用计算机技术将文字或图形转化为计算机可识别的数字符号,从而制成古籍文献数据库的一项系统工作。[3]由此可将古典文献数字化定义为:利用计算机技术对各种载体形态、内容类型的古典文献进行处理,将其转化为计算机可识别的数字符号并加以描述组织,最终形成数据库、网页等形式的数字产品,通过光盘、网络等介质进行保存传播,并提供浏览、检索、下载等服务的过程。

中文古典文献是中华文明的灿烂成果,古典文献数字化是现代技术发展背景下的必然趋势,更是古典文献形制演变的必然。[4]其在资源共享与利用,国学研究,文化保存、交流与传播等方面有重要意义。

二、古典文献数字化的现状

1988年,曹书杰在其文章中首次以论文形式探讨了将计算机应用到古籍整理的可能性与有效性。[5]自此,我国学者开始了古典文献数字化的理论研究与实践探索,并取得了进展。

1、古典文献数字化理论研究

理论研究包含基础理论、数字化技术、回顾与综述、应用研究四个主题方向。

在基础理论方面,1999年,史睿在其文章中指出“古籍数字化的理论问题比技术问题更重要”,[6]由此,越来越多的学者开始关注理论问题研究,如毛建军在总结彭江岸等的研究基础上,[7]重新界定了古籍数字化的概念,并对古籍数字化的性质、要素、目的和原则进行阐释。顾梦婷则论述了古典文献数字化的意义,[8]指出其有利于推动文献信息的共享和利用,有利于古典文献的使用和保存,有利于古典文献的校勘、笺注等。

也有学者对数字化过程中涉及的关键技术展开研究,包括汉字识别、元数据、本体、GIS技术等。如李璐结合《四库全书》电子版的开发过程,[9]分析了图文结合方式建立古籍全文数据库的系统流程与原理;吴茗通过案例分析总结了在古籍数字化过程中引入GIS的技术实现路径;[10]张军亮等设计应用二值图像水印技术实现古籍数字化图像版权保护的实现方案,[11]并通过实验证明该方法的有效性;肖怀志等以《三国志》历史年代知识元的抽取、存储和表示为例,将语义网技术应用到古典文献数字化之中。[12]

一些学者梳理了我国古典文献数字化的研究成果,包括理论综述和实践总结。如徐清对2001-2005年间的研究成果进行回顾,[13]将这一时期的研究分为基础理论研究、现有数字资源、数字化资源的选择等七个方面;杨朝霞介绍了香港、台湾、大陆三地的数字资源成果;[14]毛建军则从汉字字符集、系统功能、古籍元数据、理论基础四方面进行了回顾与思考。[15]

应用研究是指对古典文献数字化应用过程中产生的问题进行研究,包括文献选题、知识产权、标准体系、出版、保护等。胡德华、[16]沈洋、[17]李小平[18]等研究了医药古籍文献数字化中的知识产权和标准体系构建问题;张文亮等[19]利用实地走访和网络调查的方法,分析我国古籍数字化标准体系现状,针对其存在的问题提出了优化策略;[20]吴小君等[21]探讨了大数据时代下数字化古典文献出版的新趋势:数据化出版、交互式出版、构建大数据出版平台,创新古典文献出版产业链。

2、古典文献数字化实践探索

数据库、多媒体等数字技术的发展为古典文献数字化创造了条件与契机,而中文字符集、汉字光学识别等具体问题的解决使得我国古典文献数字化实践正式拉开序幕。自20世纪80年代中期开始,我国开始尝试古籍文献数字化工作,至今已近40年,取得了极大的成果。

依据所应用计算机技术的类型及数字化成品的形式,可将我国古典文献数字化实践分为三个发展阶段:电子图片浏览阶段、全文检索阶段和古典文献自动标引与整理阶段。古典文献数字化的成果以索引数据库和全文数据库两种形式存在,多以光盘或网络作为载体。其中颇具代表性的项目有:广西大学《古今图书集成》索引数据库、《文渊阁四库全书》电子版、《四部丛刊》电子版、上海图书馆古籍知识库、华东师范大学数字方志项目、中华古籍善本国际联合书目系统、国际敦煌项目等。

三、古典文献数字化存在的问题

尽管我国古典文献数字化研究与实践已经取得了多项成果,但仍存在一些问题,具体表现为:选题类型单一、数字化水平较低、标准规范不一、产权保护不足、专业人才缺失、机构合作缺乏等。

选题类型单一主要表现在载体类型单一和选题大量重复两方面。在理论研究上,我国学者多集中于“古籍数字化”研究,忽视了与册籍形态古籍不同的甲骨卜辞、金石刻文等其他重要古典文献。在实践探索上,大都着眼于纸质形态的著名古代文献,如《四库全书》、《古今图书集成》等。这不利于文献保存与传播的完整性、多样性。近年随着技术发展,特殊形态古典文献数字化项目出现,如国际敦煌项目在其网站上提供了数万册件绘画、艺术品、纺织品、历史照片与地图,[22]上海圖书馆建立了家谱知识服务平台等。但这类项目数量较少,还处于初步探索阶段,需要进一步的关注与实践。此外,古典文献数字化选题呈现追逐热门现象,如数字化的《四库全书》不少于4种,电子版的《二十五史》也有四种以上。[23]选题重复问题造成了资源浪费和小众文献的流失。

数字化水平较低表现在数字化程度浅和准确度低两方面。我国的古典文献数字化工作历经图片扫描、汉字识别、标题索引等发展阶段,已基本实现全文检索功能,但这仍处于浅层外部特征层面,未实现语义内容层面的描述与组织,不利于古典文献的深度挖掘和高效利用。此外,在文字转换、检索功能等方面,我们做的也并不完善,错字漏字、查准率低等问题依旧存在。

在标准规范方面,尽管已有《古籍描述元数据著录规范》等规范性文件出现,但由于早期标准不一,古典文献数字化工作在著录规则、数据格式、文字编码等方面存在诸多差异。从版权的角度来说,开发方为了保护版权,避免经济损失,通常会开发自己的专有数据库系统,由此导致文件格式各异,不利于资源的共享、集成和交换。[24]

产权保护问题出现在数字化过程和用户使用过程中,包括原古典文献版权保护、自建数据库使用权保护、恶意下载、非法传播等。自古典文献数字化建设始,产权纠纷就时有发生。产权保护不足一方面侵犯了他人利益,违反了法律规定,另一方面也不利于古典文献数字化工作的进行。

在专业人才缺失方面,古典文献数字化是一项复杂的系统工程,要求参与者既拥有古典文献知识,又掌握计算机技术。二者在学科设置和知识内容上差别甚大,专业人才的缺失会影响数字化工作的质量与效率。

在机构合作方面,各机构或出于利益的诉求,或出于文献的珍贵性,大都独立开发或与技术公司合作,这不利于资源的共享共建。尽管已有中华古籍善本国际联合书目、CALIS古籍联机目录等联合系统出现,但用户在不拥有访问权限的情况下难以使用全文数据。馆际互借、文献传递服务速度较慢,也无法及时满足用户需求。

四、古典文献数字化的对策

针对现存的问题,提出对策如下:

1、各机构应坚持高质量、独特性、效用型、多样性等选题原则。不拘泥于古典文献的载体形态,不盲目追求热度,选择符合社会需求和学术研究需要的高质量文献,并避免过度重复。同时,国家应立足全局,统筹规划,使得全国古典文献数字化工作朝着更加科学的方向发展。

2、在技术实现过程中,一方面要关注保存、浏览、下载、检索等基础功能的质量,如完善和优化检索功能等;另一方面要对文献内容进行深度挖掘,以展现文献内部的隐含知识信息,帮助用户更好的理解和利用文献。

3、建立统一的标准规范体系,包括选题标准、资源发布标准、资源生产标准、资源保存标准等。同时建立标准保障机制,确保标准规范的施行。[25]

4、在知识产权保护问题上,可以从法律、技术、意识三方面去努力。完善相关法律法规,加强执法力度;数字化过程中可采取访问控制、数字水印等技术保护措施;通过宣传、讲座等途径培养社会公众的著作权保护意识等。

5、培养复合型人才,包括专业教育、专题培训等;此外还应加强不同领域专业人才的合作与交流,建立综合性团队。

6、加强机构间合作,建设全国统一合作平台,促进古典文献数字化资源的共建共享。

【参考文献】

[1] 吴枫. 中国古典文献学[M]. 中华书局, 2015.

[2] 许逸民. 古籍整理释例[M]. 中华书局, 2011.

[3][7] 毛建军. 古籍数字化的概念与内涵[J]. 图书馆理论与实践, 2007(4)82-84.

[4][8] 顾梦婷. 中文古典文献数字化的意义[J]. 青春岁月, 2015(8).

[5][15] 毛建军. 古籍数字化研究的回顾与思考[J]. 国家图书馆学刊, 2007.16(3)62-65.

[6] 史睿. 论中国古籍的数字化与人文学术研究[J]. 国家图书馆学刊, 1999(2)28-35.

[9] 李璐. 古籍全文数据库建设的技术与实践[J]. 图书馆学研究, 2004(11)22-25.

[10] 吴茗. GIS技术在古籍数字化资源建设中的应用[J]. 图书馆学刊, 2016.38(4)55-58.

[11] 张军亮, 朱学芳. 基于二值图像水印的古籍数字化图像版权保护及其实现[J]. 现代图书情报技术, 2010(9)79-83.

[12] 肖怀志, 李明杰. 基于本体的历史年代知识元在古籍数字化中的应用——以《三国志》历史年代知识元的抽取、存储和表示为例[J]. 图书情报知识, 2005(3)28-33.

[13] 徐清. 2001—2005年我国中文古籍数字化研究综述[J]. 图书情报工作, 2006.50(8)139-143.

[14] 杨朝霞. 古籍数字资源述略[J]. 大学图书馆学报, 2000.18(3)15-19.

[16][20] 胡德华,朱启贞.医药古籍文献数字化问题及对策[J].中华医学图书情报杂志,2017(01)1-6.

[17] 沈洋,胡德华,李小平,李黎,马佳.医药古籍文献数字化知识产权问题[J].中华医学图书情报杂志,2017(01)7-10.

[18] 李小平,张忆雄,沈洋,宋曦玲.医药古籍文献数字化标准体系的构建[J].中华医学图书情报杂志,2017(01)11-14.

[19] 张文亮, 尚奋宇. 我国古籍数字化标准体系现状调查及优化策略[J]. 国家图书馆学刊, 2015.24(6)83-89.

[21] 吴小君, 龚捷. 大数据时代古典文献出版发展新趋势[J]. 出版发行研究, 2013(9)76-79.

[22] 国际敦煌项目[EB/OL]. [2017-02-15]. http://idp.nlc.gov.cn/.

[23] 王立清. 略论我国古籍数字化的选题[J]. 图书情报工作, 2005.49(3)62-64.

[24] 邵正坤. 古籍数字化的困局及应对策略[J]. 图书馆学研究, 2014(12)32-34.

[25] 张文亮, 薄丽辉. 我国古籍数字化标准体系现状及应对策略研究[J]. 新世纪图书馆, 2016(2)38-42.

【作者简介】

左 丹,南京大学信息管理学院硕士在读研究生.

猜你喜欢
古籍数字化
尽快制定《贵州省古籍保护条例》的几点建议
揭示数字化转型的内在逻辑
数字化起舞
西藏大批珍贵藏文古籍实现“云阅读”
古籍修复师的巧手与匠心
高中数学“一对一”数字化学习实践探索
中国民族语言的标准与数字化
高中数学“一对一”数字化学习实践探索
江苏完成九成以上古籍普查
数字化对行业影响难言“颠覆”