方志数字化实践与研究的现状评析

2020-11-17 07:38林秀玲
黑龙江史志 2020年3期
关键词:方志数据库数字化

林秀玲

(中共山东省委党史研究院(山东省地方史志研究院)山东 济南 250014)

地方志简称方志,是全面系统记述一定区域内自然、政治、经济、文化、社会的历史与现状的资料性文献,自古就有存史、资治、教化的作用。新编地方志书更是包含了大量的经济建设、政治建设、文化建设、社会建设、生态文明建设的基本情况,忠实记录了各行各业在改革开放和中国特色社会主义建设中取得的巨大成就,蕴藏着建置沿革、山川疆域、名胜物产、社风民俗、科学技术、生产工艺、管理方法、实践经验等巨大信息。其中的统计数据是经过专门修志队伍收集大量资料,从中筛选、分析、整理、编辑、加工得来的,不仅翔实全面,而且客观系统,为全社会进行各种类型和全方位的科学分析、超前预测和决策服务,提供了海量的基础数据,成为权威信息的重要资源,可称之为我国国情、地情的信息库。利用云计算和大数据技术,充分激活这些地方志资源,让地方志“用起来”“活起来”“立起来”“热起来”“强起来”,将重新焕发出地方志的巨大价值。

一、实践与研究

20 世纪90 年代以来,随着计算机技术和网络技术的发展,不少有识之士认识到地方志数据资源的巨大价值与作用,进行了方志数字化、信息化探索,大量的数字方志资源被开发出来。开展方志数字化实践与研究的单位既有各级地方志工作机构,也有图书馆、文物保护单位等方志收藏机构,还有部分数字化企业及大学、科研部门等。由于参与单位的复杂,数字方志资源的形态也各有不同,资源的分布也不平衡。

(一)地方志工作机构

笔者根据各省、自治区、直辖市地方志工作机构所办网站,参照《中国地方志年鉴》2003 卷至2018 卷,对全国地方志工作机构进行的方志数字化工作做了初步统计,截至2019 年4 月底,全国共有28 个省、自治区、直辖市的省级地方志工作机构开展了方志数字化工作,建立了各具特色的方志数据库。此外,全国还有包括副省级城市、地级市(自治州)、县(市、区)在内的地方志工作机构建设的400 多个方志数据库。其中,山东省情资料库、福建省情资料库、黑龙江省情资料库、内蒙古自治区地方志多功能数据库等是较有特色的方志数据库。这些方志数据库对两轮社会主义新方志编纂的省市县三级志书、年鉴、地情书及当地历朝历代志书和本级地方志工作机构编纂的方志理论著述等进行数字化,方便了社会各界充分利用数字方志资源,挖掘地方志资源的文献信息。

但至今20 多年过去了,全国地方志系统资源数据统一集中的大格局还未形成。

(二)方志收藏机构

图书馆、博物馆等方志收藏机构,重点对本单位收藏的历朝历代的旧志进行数字化。

图书馆是地方志收藏的主体,馆藏地方志资源十分丰富,在方志数字化建设上占有绝对优势。图书馆进行的方志数字化建设主要表现在地方志书目建设和全文影像同步进行方面,并且在数字资源的检索、版本比较、编辑、繁简转换、版权保护等方面具有较为明显的特色。如国家图书馆数字方志数据库、北京师范大学图书馆的古籍方志书目数据库、广西壮族自治区图书馆的广西地方志全文影像库等都展示出明显的地方特点。

博物馆特别是地方博物馆在进入21 世纪后,随着博物馆功能的不断完善,也开展了馆藏地方志数字化工作。如天一阁博物馆,从2006 年起就开始了古籍数字化的工作。象山县博物馆2018 年3 月启动馆藏家谱数字化及纸本再造工程,通过对馆藏家谱进行数字化扫描,实现检索、影像、全文同屏阅读、数据制作、权限控制等多位一体的功能转换,一举解决古籍保护和利用间的矛盾。

(三)数字化企业

随着信息技术的发展,一些企业准确把握了时代发展的需求,较早建立了比较丰富的地方志数据库。如万方方志数据库共收录新方志5 万余册,收录宋、元、明、清、民国旧方志6000 余种近8 万册;爱如生中国方志库共收录汉魏至民国地方志1万种,采用宋、元、明、清及民国各种善本1 万个;籍古轩中国数字方志库共收录1949 年以前历代编撰的不同版本的旧志书1.2 万种,总册数10 万册。

(四)其他

华中师范大学中国地方志数据库,收录地方志共计31483 册、82735 卷。

新闻出版重大科技工程项目“中华字库”工程,与方志数字化相关的内容是 “建立全部汉字及少数民族文字的编码和主要字体字符库。重点研发汉字的编码体系、输入、输出、存储、传输以及兼容等关键技术”。

二、问题和不足

综上所述, 我国方志数字化已经形成了一定的规模, 各地各单位还根据各自的特点和优势建成了特色鲜明的数据库,在服务经济社会发展大局、积极参与公共文化服务体系建设、传播方志文化、推进地方志智库建设等方面提供了强大的数据支撑,有利于推出高质量的信息咨询、研究成果和对策建议,发挥地方志启迪未来的作用。但从整体看,方志数字化还处于起步阶段,存在许多问题和不足:

(一)缺乏统一规划 重复建设严重

从方志数字化实践和研究现状看,自中央到地方对方志数字化工作非常重视。2016 年9 月中国地方志指导小组颁发《全国地方志信息化发展规划(2016—2020 年)》,指出“加强地方志信息化建设,实现海量地方志资源的数字化,在此基础上进行数据统计和分析,有助于提高地方志资源的利用效率,更好地发挥地方志围绕中心、服务大局的功能”。随后发布的《全国信息方志与数字方志建设工程实施方案》指出“依托国家数字方志馆,建成全国规模最大的地方志全文数据库(包括目录数据库、提要数据库)”,但直到目前,各省、自治区、直辖市、各部门仍是独立开展方志数字化工作。并且《全国地方志信息化发展规划(2016—2020 年)》局限于地方志工作机构信息化的发展规划,没有对包括文化出版单位、古籍部门、数字化企业等全国方志数字化进行统筹考虑,而《2011—2020 年国家古籍整理出版规划》也没有明确古籍(包括旧志)数字化的规划问题, 全国方志数字化工作基本处于一种缺乏宏观管理和调控的状态,缺乏一个全国性的统一发展规划来明确方志数字化的发展性方向、整体性布局、阶段性任务。建设单位各自为政, 为达到一些硬性评估指标, 片面追求资源总量, 不注重开发地域资源和特色资源, 导致重复建设严重, 造成人力、财力、物力的极大浪费, 这在很大程度上阻碍了我国方志数字化的发展进程。

(二)缺乏统一标准 阻碍资源共享

方志数字化是一项技术性很强的工作,在操作系统、应用软件等方面,如果没有一个统一的标准和规范,即使各省、自治区、直辖市的地方志网站、数据库建成了,必将出现因技术标准不统一造成的不兼容,无法联网共享,这将是资源的巨大浪费。

从全国方志数字化实践来看, 由于最初采取的是各自为政的发展模式, 全国地方志的数据库技术标准、接口以及数据格式、数据标准、著录文字、图像处理、编目软件、数据库存储等方面均存在差异,系统不兼容已经成为地方志资源信息共享、网络系统建设、文献资料广泛传播的重要障碍。如在对旧方志数字化过程中,有采用繁体字著录的, 也有采用简体字著录的;在对新方志数字化过程中,有采用全文数据库的,也有采用图像数据库的,在图像格式中有使用TIF格式的、有采用JPG格式的、有采用PDF格式的,还有使用GIF格式的、ABT格式的。由于没有方志数字化处理相关标准和规范,就使得数据的交换无法直接进行, 只能通过专门的软件作为中介, 进行格式和文字的统一。然而, 由于著录标准上的差异, 今后即便能将这些数据汇入统一的数据库进行检索或者能够实现跨库检索, 也会给读者的使用带来诸多不便, 导致无法真正实现全国范围内的资源共享。

(三)缺乏大数据思维 顶层设计滞后

当前我国方志数字化实践与研究的基本特征是技术思维、数据分析思维, 而不是大数据思维,没有在大数据思维的指导下从类型繁多、数量庞大的多样化数据中最大化地挖掘出地方志大数据的价值,顶层设计滞后,缺乏统揽全局、追根溯源,缺乏统筹考虑各层次和各要素,没有在最高层次上寻求解决方志数字化问题之道。主要表现为:

1.出发点和关注点主要是在微观层面、技术层面, 缺乏对于方志数字化的顶层设计、宏观布局、统筹协调、规范引导等的系统思考;

2.对方志数字化的认识不清晰,缺乏对方志数据的整理和统计分析, 缺乏对方志数据的二次开发;

3.处理的主要是数据, 而不是强调具有普遍关联特征的大数据。这一方面是由于技术思维惯性的影响, 另一方面, 大数据环境和大数据思维还没有成熟到能够催生普遍关联的大数据分析。

这些不足之处, 究其根源, 既有实践与研究时日尚短、不够深入的原因, 也有研究方法论在方志学乃至统计学之外的原因, 但是最根本的是对大数据的理解尚不透彻、缺乏大数据思维。

(四)缺乏对著作权的保护 侵权风险增加

方志数字化的实施, 是依托互联网对志书进行数字化资源的采集、加工与整理, 并借助信息技术实现资源共享。在这个过程中,对数字化资源的使用是否恰当、数字化开发的软件有没有被盗版等,都涉及著作权保护问题。

方志在数字化过程中, 需要借助各种先进的信息处理技术对不同类型、不同载体的方志资源进行数字化处理, 通过设置页面索引、专业目录、检索框等方式,将其录入数据库或资源库信息服务系统中, 需要依托互联网进行信息传输, 将各类作品以数字化的方式传播开去, 供用户浏览、查询和使用,实现资源共享。一方面,由于信息来源的广泛性,信息传播方式的随机性、多向性,以及网络环境下缺乏必要的所有权标识,在方志数字化信息处理过程中、信息服务过程中以及数据库建设等过程中,就很难保障对方志著作权的有效保护, 加上公众版权意识淡薄, 著作权人很难对传递过程进行控制, 这就增加了著作权被侵犯的风险。另一方面,软件著作权不同于以传统方式存在的著作权,为实施方志数字化开发的计算机软件, 其目标程序完全处于数字化状态, 在开放的网络环境下软件著作权人对其开发软件的控制能力减弱,软件作为著作权保护对象, 同样面临合理使用的问题。软件开发的成本很大, 却极易被复制且复制成本低廉, 相对于一般的文字作品, 计算机软件的著作权更易于受到侵犯。

当前对数字化方志著作权保护问题的研究没有引起足够的重视,仅局限于讨论数字技术突破对传统著作权的冲击等问题,缺乏进行深入研究,尤其是对于方志数字化过程中的软件著作权的保护和法制管理等方面的研究很少涉及,不利于维护网络环境、促进方志数字化的健康发展。

三、建议与对策

(一)加强统一规划 避免重复建设

统一规划、整合资源、注重特点是避免重复建设的重要途径之一。我国目前的方志数字化工作需要一个全国性的权威机构进行统一管理,协调方志工作机构、方志收藏机构及数字化企业等,避免各自为政、同一项目重复制作的现象。另外,通过建立一个协调机构,加强宏观调控和指导,能将各制作者建立起的方志数据库进行整合,避免数字化产品重复、资源浪费、不兼容等问题。笔者认为, 一方面, 作为国家地方志工作指导机构的中国地方志指导小组,具有统筹规划、组织协调、督促指导全国地方志工作的职责,对方志数字化同样具有统筹规划、组织协调、督促指导的责任。建议中国地方志指导小组协调国家古籍保护中心、文化出版、数字化公司等单位, 对全国旧志数字化资源进行整合, 及时公布, 并对旧志数字化立项进行严格审核。另一方面, 各地地方志工作机构在进行方志数字化项目时, 应充分考虑自身的特点与优势, 积极协调当地古籍部门、文化出版单位、数字化公司等进行选题,在一定程度上避免重复建设, 做到方志数字化资源的合理配置和有效开发。如果各级史志部门都能对当地特色旧志进行有效的数字化开发, 旧志数字化将会有更广阔的前景。

(二)统一标准 资源共享

方志是宝贵的历史文化遗产,社会群众都有方志资源的共享权。出台统一的方志数字化标准和规范, 是方志数字化资源共享的关键所在。因此, 必须建立具有长期约束力的标准和规范,以信息技术的发展和数字化方志的实践成果为基础,强化方志数字资源开发过程中的相关性、重复性环节,取得相关法律法规和政策的获准,契合社会大众对方志信息的需求,方便各界人士检索,使不同的系统资源进行转换、交换、兼容和共享, 使相互合作与共建共享更容易进行。

近年来,文献数字化标准制定工作在一定程度上受到重视。从2002 年开始, 科技部责成中国科学院文献情报中心、国家图书馆等21 家单位联合进行了数字图书的相关标准规范研究,其中与地方志有关的是《地方志描述元数据著录规则》《地方志描述元数据规范》,但这两项标准并没有对旧志和新方志的元数据著录加以区分。对旧志的元数据进行著录还要按照《古籍描述元数据著录规则》《古籍描述元数据规范》等,根据旧志与新方志的不同特点,制定与之相应的描述和著录的规范、规则。

目前全国地方志系统尚未形成一个统一的方志数字化标准,一些信息化建设走在前列的省份已经建成规模庞大的方志数据库,形成了自己的数据库标准,为全国方志数字化标准规范的制定奠定了良好基础。

(三)更新观念 构建大数据思维

大数据时代最重要的不是大数据, 也不是大数据技术, 而是大数据思维。面对大数据时代的扑面而来,方志数字化实践与研究应该摆脱传统的思维模式,在大数据思维方式的指导下,通过大数据分析、大数据可视化等应用服务技术,制定全面而完整的大数据战略规划,设定并完成短期和阶段性的大数据战略目标,逐步建立分析体系,循序渐进地提升大数据分析能力。目前应进行的工作是:第一,以现有的数字化基础数据为切入点,从基础数据做起。当前方志数字化后许多的数据价值无法呈现,很大一部分原因是基础数据不扎实。所以首先要把现有的基础数据做好,从类型、格式及相关的存储等进行梳理,打好基础数据的根基。第二,注重收集和存储用户信息行为数据, 如数据库的检索时长、检索词、下载文献的主题等,一方面逐渐将其累积成大数据, 为将来各项应用做好充分准备;另一方面借助已有的数据分析手段和研究方法, 全面收集分析用户相关偏好,透过用户信息行为数据了解用户需求的变化特点, 细分用户群体, 进而指导方志信息资源建设和信息服务整合。第三,选择主流高性能呈现的价值点,围绕积极创新引导,改造信息的生成、交换、关联和应用,改变现在单纯依靠人为进行判断的局限,充分了解用户信息行为及其不断变化的需求,客观地量化评估方志数字化后的社会效益,不断改善信息服务,充分发挥志书的作用,最大化地挖掘方志数据的价值。

(四)建立安全屏障 维护著作权人权益

方志是受《中华人民共和国著作权法》保护的对象,方志的著作权属于各级地方志工作机构。《地方志工作条例》第十五条规定:“以县级以上行政区域名称冠名的地方志书、地方综合年鉴为职务作品,依照《中华人民共和国著作权法》第十六条第二款的规定,其著作权由组织编纂的负责地方志工作的机构享有,参与编纂的人员享有署名权。”《计算机软件保护条例》第五条规定:“中国公民、法人或其他组织对其所开发的软件,不论是否发表,依照本条例享有著作权。”依照《中华人民共和国著作权法》《互联网著作权行政保护办法》《计算机软件保护条例》《信息网络传播权保护条例》等相关法律法规,方志数字化后其著作权仍属于各级地方志工作机构。任何非编纂组织和个人,未经方志机构许可,利用新编地方志数字化资源开发经营,都属于侵犯方志机构著作权的行为。各级地方志工作机构应该树立起依法保护方志著作权的意识,加强相关法律规定的学习,仔细研究处理网络著作权侵权问题的定位、权限以及具体的操作指引,制定相关制度,科学而有效地规制网络著作权的侵权行为。

同时,针对深度转码、云存储、P2P等各种新型网络传播技术的出现, 在现行的网络著作权相关法律无法完整涵盖当前网络著作权相关行为的情况下,史志机构不仅需要完善相关法制规章, 也需要从技术层面强化监管。这是因为互联网环境下, 数字化资源的传播具有即时性、动态性特点, 广大用户可以自由下载、复制、修改数字化内容, 这就给资源流通中的著作权维护增加了难度。加上方志数字化后的开放性, 人们可以自由访问、获取方志资源, 甚至对这些资源进行加工处理。因此,为避免数字化作品在加工、流通等阶段, 由于用户操作不当引发的侵权问题,有必要学习图书馆等部门的既有经验,引入先进的数字化技术, 对数字化方志资源进行加密、封装等特殊处理, 为数字化资源在网络环境下的流通建立安全屏障,提高对这些资源的安全防控能力,为维护著作权人的利益提供有力保障。

猜你喜欢
方志数据库数字化
推动内部审计工作数字化的探究
数字化赋能农业提质增效
河北省档案馆馆(省方志办)藏《永壁村保甲册》鉴赏
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
数据库
数据库
设置方志学专业硕士学位探讨
数据库
数据库