数字资源长期保存探析

2019-09-10 15:25袁红梅
锦绣·下旬刊 2019年9期
关键词:数字信息网页图形

袁红梅

1、数字资源长期保存的必要性

数字资源长期保存的目的是要保证未来用户可以检索、获取、浏览、理解各种数据和记录,它是一项长期的需要大量投资等工程。从数据的组织形式上看,数字资源有数据库、电子期刊、电子图书、网页、多媒体资料等类型。按存储介质可分为磁介质和光介质两种类型。其中,磁介质包括软盘、硬盘、磁盘阵列、活动硬盘、优盘、磁带等类型;光介质包括CD、DVD、LD 等类型。常用的数字资源存储介质为硬盘、磁盘阵列、磁带及CD、DVD、LD 等。

由于数字资源尤其是网页内容的资源,更新速度非常快,许多资源稍纵即逝,如果不注重保存,很可能就无法再找到信息资源的内容。面对如此庞大数量的网络资源,数字资源长期保存越来越成为了一个亟待解决的问题,否则重要的文化遗产将会迅速消失。

2、数字资源长期保存的技术方法

2.1迁移技术

美国保护与存取委员会(CPA)所属的数字信息归档特别工作组曾在报告中指出:“迁移是对付技术过时的最佳良策,它应是数字资料完成定期转换的一系列有组织的工作,包括维护数字对象的真实性、用户的再检索、显示与其它利用的能力”。还有的国家的研究部门认为,数字信息长期存取问题可以归结为:迁移、媒体材料和管理。西方发达国家数字档案馆大量的成功实践表明,迁移是维护数字信息长期存取的有效方法。迁移的策略主要有两种:一是将数字信息从稳定性低的媒体上迁移到稳定性高的媒体上,从对软件依赖强的格式迁移到对软件依赖程度低的格式上;二是把数字信息从各种不同格式迁移至易于管理的最简单且符合标准的格式。

2.2更新技术

美国国家档案文件管理局(NARA)就指出,CD- ROM、WORM 和可擦式光盘等三种光学媒体可以用来作为数字文件的载体。我国国家档案局在《办公自动化电子文件归档与电子档案管理方法》中规定,电子文件应“ 拷贝至耐久的载体”,禁止用磁盘来保管电子文件,并分先后次序对载体进行了推荐只读式光盘、一次写入光盘、可擦式光盘、磁带。为了防止媒体质量的恶化而使数字信息不可存取,人们正在使用更新技术不断地通过复制将旧存储媒体上的数字信息转移到新的媒体上。

2.3转换技术

转换是指把信息从一种媒体转移到另一种媒体上,包括格式变换与复制。转换的目的是在纸张、缩微胶片、录像、磁性材料、光盘等媒体并存的混合环境中实现不同媒体之间信息内容的保存。转换的内容很多,比如:对已有软件进行修改,使之在不同环境下工作时具有相似的功能,如把在某一台计算机上运行的程序变换成能在另一台计算机上运行的程序;将一种文件格式转换到另一种文件格式,或从一种字符编码方式转换到另一种字符编码方式;将一种媒体转换到另一种媒体上;从一种操作系统转换到另一种操作系统上;改变系统的硬件使其工作于新的或不同的设备,以对系统进行升级等。

2.4仿真技术

仿真是通过详细描述数字信息利用的各种技术参数和环境条件,使未来计算机系统可以模仿原始系统环境来读取和使用数字信息内容。

仿真技术适合于超文本、多媒体等复杂的以及其它依赖特别软/硬件而又无法在新、旧技术平台之间进行迁移的数字信息。但是,仿真技术是在保存数字信息的同时,通过保存数字信息利用的软/硬件环境来保障对数字信息的可利用性。而在技术更新周期不断缩短的现实环境之中,努力来开发一个执行过时的软/硬件的系统。

2.5数字图形输入板技术

数字图形输入板是为了克服迁移技术存在的迁移时机不易把握、无法保存复杂数字信息的缺点而开发的一种新的技术。数字图形输入板技术有许多优点,比如:第一,数字图形输入板融信息存储与处理功能为一体,可以对数字信息进行动态保存。第二,数字图形输入板具备触摸和声控功能。第三,以光为能源或自带电源,自备屏幕并将屏幕上的信息自动转化为数字信息储藏。第四,数字图形输入板具有坚固的实体,防水、抗重力、耐寒、耐高温。第五,储存能力达数百上千TB字节。数字图形输入板适用于年度报告、政府法律文献、珍贵艺术品的保存,而对于一些用途有限、需要定期删除的信息则宜选用迁移策略。序

2.6再生性保护技术

再生性保护技术是将过时的某些数字信息适时地转换到缩微品或纸介质上的一种保护措施。一般认为,转移到缩微品上会更可靠一些,因为缩微胶片的理论寿命达五百年之久,而国内外用缩微胶片保存信息也已经有了数十年的丰富经验。再生性保护技术存在的问题是:部分有声信息、多媒体信息无法转移到胶片或纸张上去;信息如果转移到胶片或纸张上之后,由于这两种载体表现形式的局限性,会使数字信息失去原有的风格和魅力。

3、国内数字资源长期保存现状

3.1 WICP 项目

WICP 项目分网站单元和网页单元进行网络文献的收集、编目和保存,分别形成镜像存档和专题存档。专业多为英语、计算机、图书馆学、情报学专业,通过对信息单元(即收集、编目和保存网络文献的最小单位,一个信息单元在存档系统对应一个标识符)进行收集。该项目积极探索信息资源的采集与保存的相关法律、技术、标准等问题,在进行网络信息的采集和保存时,对静态网页(表层网页)和动态网页(深层网页)采取不同的策略,形成对应的两个子项目,即网络信息资源采集与保存试验项目(WICP)和网络数据库导航项目ODBN(Online Database Navigation)。

国家图书馆开展保存试验项目的目的是通过试验发现网络文献收集、整理、编目、保存和服务中存在的问题,提出解决问题的方案;确定保存对象,根据其特点确定技术路线和策略;试验性收集、整理、保存数据并提供服务;提出业务整合的方案。它不仅为我国网络信息资源保存实践开辟了新路,也为今后的保存实践提供了宝贵的经验。

3.2 Web信息博物馆

中国Web信息博物馆(Web Information)是2002年1月,在国家“973” 和“985”项目支持下,由北京大学“计算机网络与分布式系统实验室”主持开发的中国网页历史信息存储与展示系统,包括历史网页存储系统和回放系统两个部分。目前系统可以收集中国所有静态网页,并提供历史网页的存盘和回放,已经维护有30亿以中文为主的网页,并以平均每4500万网页的速度扩大规模。其基本使命是以一种集中的形式,全面展现中国互联网上信息的歷史;为社会提供多种海量网络信息产品,供相关科研人员进行研究。数字长期保存是一个需要持续投资的昂贵项目,缺乏国家层面上数字保存政策的支持,会导致保存质量难以得到保障,各个保存项目之间难以实现数据交换和资源共享,使得经费本来就异常困难的图书馆雪上加霜,背上沉重的经济负担。因此,在数字资源的长期保存活动中,制定国家层面上的保存策略,实行各保存机构的有效协作,是降低保存成本的途径之一。

猜你喜欢
数字信息网页图形
基于HTML5静态网页设计
搜索引擎怎样对网页排序
基于云平台的数据储存与文件管理研究
分图形
数字信息对图书馆馆藏结构的影响
找图形
图形变变变
高校学籍档案信息化管理研究
图形配对
网页智能搜索数据挖掘的主要任务