数字档案长期保存技术方案的优选

2021-10-13 05:06耿志杰郭心竹
档案管理 2021年5期
关键词:数字档案技术方案

耿志杰 郭心竹

摘  要:数字档案长期保存是一项艰巨的系统工程,技术方案是长期保存策略体系中的重要组成部分,只有合理应用技术方案才能确保数字档案的长期可用,因此需要对技术方案进行优化选择。通过分析数字档案长期保存技术方案优化选择的必要性,在参考欧盟Planets项目“目标树”对长期保存技术策略量化评估的基础上,从构筑合作联盟、引入效能分析法、培育量化思维、树立规划意识四个方面,提出我国数字档案长期保存技术方案的优化选择策略。

关键词:数字档案;长期保存;技术方案;优化选择;档案技术

Abstract: The long-term preservation of digital Archives is an arduous system engineering. The technical scheme is an important part of the long-term preservation strategy system. Only the reasonable application of the technical scheme can ensure the long-term availability of digital Archives. Therefore, it is necessary to optimize and explore the technical scheme. By analyzing the necessity of optimizing the selection of long-term preservation scheme of digital Archives, and based on the experience of objective basis instead of subjective conjecture, establishing measurement standards and scales, combining internal rough evaluation with external fine evaluation, and forming a global preservation plan, this paper introduces efficiency analysis and progressive evaluation from the perspective of building cooperation alliance, In order to inspire the practical work of Archives department in China, this paper puts forward the optimization and selection strategy of long-term preservation technical scheme of digital Archives from four aspects: upgrading quantitative thinking, constructing index system, establishing planning consciousness and overall concept.

Keywords: Digital archives; Long term preservation; Technical proposal; Optimizing selection; Archival technology

数字档案长期保存是一项重要的系统工程,各种应对策略最终需要落实在各种技术方案上,“在数字资源保存策略中,技术方案是全部策略赖以依附和执行的基础,是数字资源保存的核心与关键”。[1]目前我国关于数字档案长期保存技术方案的研究主要聚焦于三个方面:

技术体系的构建研究,如国家层面长期保存技术体系[2];技术方案的应用及比较研究,如云备份[3]、格式注册[4]、更新、仿真、迁移[5]等;技术方案的实践案例研究,如英国国家档案馆数字档案长期保存元数据方案[6]、ARCHANGEL项目和InterPARES Trust项目中的区块链技术[7]等。

上述研究成果均对我国数字档案长期保存的理论与实践发展具有重要参考价值。然而,目前我国还没有对技术方案的选择问题进行系统研究,面对多种多样的技术方案,如何在长期保存的关键环节选用最优的技术方案,如何扬长避短发挥技术方案的最大优势,档案部门应给予特别关注并积极采取措施加以解决。

本文参考欧盟Planets(Preservation and Long-term Access through NET-worked Services,也称“行星”)项目的“目标树”框架,对数字档案长期保存的技术方案如何优化选择进行探索,以期为档案部门的数字档案长期保存实践工作提供参考。

1 数字档案长期保存技术方案优化选择的必要性

1.1 技术方案的复杂性。数字档案长期保存相关技术方案种类繁多,这种复杂性导致了优化选择以及协调组合较为困难,因此需要对技术方案进行优化选择,以规避各种不确定因素所带来的技术风险。技术方案的复杂性主要表现在两个方面:

(1)单一技术方案无法满足长期保存的所有需求且自身存在不足。在长期保存实践中,常见的技术方案有迁移、仿真、更新、封裝等,这些技术方案针对性很强,单独使用只能解决长期保存中的部分问题。同时,这些技术方案自身也会存在不足,如迁移可能丢失一定的结构、版式、链接、交互关系等信息,导致转换后的数字信息内容与原数字信息内容出现差异[8];仿真工具的开发和维护是一项十分复杂、困难、成本高昂的工作,[9]且存在软件兼容性问题[10];更新不能完全解决数字档案的可用性、完整性和真实性等问题[11];封装难以刷新元数据,且对相关软件的使用有依赖性。[12]

(2)组合技术方案较为困难且易混乱。技术方案的复杂性导致了它们之间协调组合的难度较大,尤其在面对数量巨大、类型多样的数字档案资源时,组合多种技术方案可能出现搭配不协调、混乱等情况,档案部门在实践中的组合应用现状并不理想。北京联合大学谢永宪团队2018年调查发现,采取两种技术方案的综合档案馆有20.6%,采取三种技术方案的只有4.7%。[13]

1.2 技术方案选择缺少客观性。长期保存技术方案的制定需要分析数字资源保存所处的完整的上下文环境,识别影响保存技术的各种关键因素,根据既定目标选择合适的保存技术,形成一个可行的、安全的混合保存技术策略。[14]

由于目前我国在数字档案长期保存技术方案选择方面缺乏相关标准,导致档案部门在实践中过于依赖以往的工作经验,难以保证客观性。[15]这种主观选择充满不确定性,会导致技术方案不科学,难以确保技术方案的有效性,更难以发挥技术方案的最佳效能,无法满足长期保存的要求。

2  Planets项目“目标树”经验分析

Planets项目是一项为期4年(2006—2010)的数字保存研究与开发项目,成员包括图书馆、档案馆、研究型大学和科技公司等。

该项目通过构建分布式的服务网络框架,利用框架内的保存计划、保存特征描述和保存工具等实现数字资源的长期保存,其核心工作包括六个部分:保存计划、保存行动、保存特征描述、测试平台、传播和使用、互操作性框架。[16]其中,保存计划旨在为保存方案的选择提供决策支持,计划内部的“目标树”则为长期保存技术方案的优化选择提供了可供借鉴的范例。

2.1 “目标树”的实现框架。“目标树”具体表现为一个树形结构图,按层次高低设置了保存机构可测量的所有目标,据此对技术方案进行实验评估,并根据实验结果考察技术方案满足长期保存需求的程度,从而优化选择技术方案并制定保存计划。

参考Planets项目研究报告,[17]“目标树”流程框架如图1,其实现流程主要有四个步骤。

(1)创建目标树。保存机构首先要明确保存需求并自上而下划分目标层级,最高层目标通常分为四类:文件特征、记录特征、过程特征和成本问题。[18]在此基础上为目标树中的所有目标分配可测量单位,如色彩深度的位数、每秒帧数等,以作为技术方案的实验指标与评估依据。最后利用项目内的计划工具Plato[19]创建目标树,若保存机构条件有限,可在知识库中提取目标树的片段或模板完成创建。

(2)通过实验测试技术方案。使用项目内的测试平台Testbed,[20]对各种单独或组合的技术方案进行测试,并根据实验结果评估是否需要重复实验,以保证技术方案的有效性。[21]

(3)分析比较技术方案。对技术方案的实验测试结果进行分值转换(0-5分),并结合目标分配权重系数,利用聚合函数Sum of Differences[22](差异求和)等,计算保存方案的总效用值和分效用值,根据总效用值排名并形成列表,分效用值则在必要时作为参考。

(4)确定保存方案,形成保存计划。根据总效用值和分效用值推荐出最优保存方案,并形成保存计划存储于知识库中,保存计划具有宏观规划和指导作用。

2.2 “目标树”的经验分析

2.2.1 客观依据代替主观臆测,提升技术方案科学性。通过Testbed运行的实验,允许参与者系统地执行实验,实现了实验的可重复性和结构化实验文档的长期可用性,[23]提升了技术方案的科学性。基于实验的排名列表,简明清晰地展现了技术方案与保存目标的匹配程度,是优化选择的客观依据,能够避免因技术方案的不恰当应用所导致的风险,以保证数字档案的长期可用性。

(1)避免技术方案选择的盲目性和主观性。由于缺少选择标准,盲目选择会导致决策出现失误或错误,而依赖于经验的技术方案选择主观性过强,也无法保证决策的准确客观。从长期保存的角度看,复杂的信息技术更迭以及各种未知风险,将会使数字档案长期保存面临各种风险挑战,相应技术方案必须确保科学性,否则将导致巨大的隐患,直接影响长期保存效果。此外数字档案长期保存是一项长期性工作,其间将有很多档案管理人员经手,如果纯粹依靠他们的经验和主观判断,无疑会增加长期保存的风险。

(2)可重复的实验充分验证各类技术方案。Testbed可以对各类技术方案重复进行多次实验,结构化的实验文档详细记录了实验相关内容。从长期保存的角度看,这不仅可以对技术方案进行充分验证,确保技术方案的可行性、有效性和协调性,而且可以作为优化选择的客观依据,提升优化选择的科学性。

2.2.2 制定测量标准和尺度,串联优化选择“核心线”。制定测量标准、制定测量尺度和运行实验这三步共同构成了优化选择的“核心线”,这一流程是技术方案优化选择的中心部分,有助于从根本上解决技术方案的选择乱象问题,实现长期保存的具体目标,即保证数字档案的生存能力、可呈现能力和可理解能力。[24]

(1)与实验过程串点为线,是技术方案优化选择的基石。制定测量标准,即为“目标树”中的目标分配可测量单位,是顺利进行实验的基础;制定测量尺度,即将实验结果转换为统一分值,是量化实验结果的手段。二者既是实验前后的基础性工作,也是必不可少的环节,与实验过程串联起来构成贯穿优化选择全过程的“核心线”。从长期保存角度看,风险因素种类多且充满未知性,需要系统化、科学化的实验设计,确保从多维度对技术方案进行充分检验和论证,才能保证技术方案针对各种风险因素的有效性。

(2)實验结果具有可比性,为优化选择提供决策依据。制定测量标准和尺度,本质上是以量化的方法使实验结果具有可比性,进而为技术方案的优化选择提供依据。客观的度量标准与数值化的衡量尺度不仅是优化选择客观依据的直接体现,还可以直观显现出不同技术方案的效用差异。从长期保存角度看,这种差异体现为保存效果的差异和技术方案的优劣,直接决定了数字档案长期保存的质量与效率;相反,失去量化比较这一核心思想的支撑,优化选择就会丧失客观性,只能依靠档案人员的经验和主观判断。

2.2.3 内部粗评与外部精评相结合,递进式推动优化选择进程。科学的优化选择决策需要对技术方案进行全方位评估,“目标树”通过将技术方案的内部粗略评估与外部精准评估相结合,以“模糊匹配+精准比较”的方法递进式推动了优化选择的进程,也为长期保存整体工作的高效推进增添助力。

(1)内部粗略评估的方法与过程。内部粗略评估是为了确定是否需要重复实验,即确定技术方案能否满足机构的长期保存需求,根据步骤“将目标特征映射到需求”[25]的结果,在技术方案的内部,评估各个目标与机构长期保存需求的匹配程度。可通过评估该程度的一致性来决定是否需要重复实验。

这一阶段确定了技术方案的初步筛选情况,如果省略此步骤则会导致具有迷惑性的极端数据干扰后续优化选择进程、无法识别因实验设置错误或实验设计不合理而造成的不利因素、无效数据冗余等情况。从长期保存角度看,经初步筛选的技术方案在整体上符合长期保存的总目标和总需求,因此,内部粗略评估有利于节约长期保存时间成本,精简保存流程,还能规避因技术方案应用不合理所造成的技术风险,如数字档案的不真实风险、不完整风险[26]等。

(2)外部精准评估的方法与过程。外部精准评估是面向各技术方案间的横向比较,依据是经过比例转换和权重分配后得出的排名列表,目的是评估各技术方案满足机构长期保存目标和需求的总体程度,这将直接影响优化选择的最终决策,共分为三步:测量尺度的数值化转换、权重系数的分配、利用聚合函数或技术得出方案效用值。

这一阶段具有重要意义,不但以量化的方式精准实现了优化选择的目标,而且评估结果保证了优化选择决策的系统性,其最终结果也是推荐技术方案的关键依据。从长期保存角度看,优化选择目标的精准实现有利于确保长期保存技术方案的应用效果最大化,保障数字档案的真实性、完整性和可用性;评估结果中分效用值的存在则考虑了长期保存的总体目标,对长期保存的整体规划具有重要指导意义;如果省略此步骤会打断优化选择进程,停留在初始的内部粗评阶段且无法得出排名列表,无法对各种技术方案进行细致对比,则不能实现长期保存技术方案的优化选择。

2.2.4 形成全局性的保存计划,推动长期保存持续发展。(1)扩大优化选择范围,统筹长期保存整体规划。“目标树”不仅针对技术方案进行优化选择,同时以全局视角考虑了保存方案的其他因素,如监测规则、成本估算、决策证据、角色和责任等,打破了优化选择的范围局限。从长期保存角度看,“目标树”可以将优化选择上升到宏观层面,并制定一个系统的全局保存计划,计划的有无不仅体现了对数字档案长期保存的重视与否,更在一定程度上决定了长期保存工作的质量和能否实现可持续发展,[27]同时也为长期保存实践作出了宏观层面上的规划设计。

(2)有利于构建长期保存技术体系。长期保存技术体系包括技术策略选择、保存计划管理、保存工作流管理等众多组成部分,[28]“目标树”不仅形成了搭配协调的技术方案,而且制定了全局性的保存计划。从长期保存角度看,经由“目标树”形成的保存计划具有科学合理、经济高效、考量周全等优势,技术方案与保存计划对于构建长期保存技术体系具有重要价值,对于档案部门的长期保存实践工作也具有指导意义。

3 “目标树”对我国数字档案长期保存技术方案优化选择的启示

3.1 构筑合作联盟,科学评测技术方案。实验是优化选择的核心部分,优化选择正是通过运行实验和检测各种技术方案的效用大小,进而推荐最优方案以实现数字档案的长期保存,这种方法具有较高的客观性和科学性。针对如何开展实验这一问题,我国档案部门可以根据实际情况,面向社会广泛构建合作联盟,通过实验为技术方案的优化选择注入科学力量。

在合作联盟构建方面可以考虑两种模式:一是档案部门之间的合作,充分发挥一些档案部门在长期保存和信息技术方面的优势,集体构建长期保存技术方案实验测评体系,这种模式可以实现技术上的合作攻关与经费支持上的最佳分配[29];二是档案部门与科研机构或信息技术公司之间的合作,将专业性和技术性较强的实验测评体系外包出去,充分发挥相关科研机构或信息技术公司的技术优势,充分保障实验测评体系的专业性与准确性,这种模式既能简化工作流程,又能提高长期保存的工作效率。

3.2 培育量化思维,构建指标体系。“目标树”为各个长期保存目标制定了测量标准和尺度,以便于直观比较技术方案的效用差异,为技术方案优化选择提供充分依据。我国档案部门可以借鉴其中的量化比较思想,摒弃传统的经驗主导思维,运用量化思维构建技术方案评价指标体系。

在指标体系构建过程中,应该根据长期保存目标对评估内容进行细化,明确指标分级和设计权重,并对关键指标进行量化,以此对技术方案的功能效用进行充分检验。同时,该指标体系还可以为长期保存的质量评估提供参考。

3.3 引入效能分析与递进评估,提供技术保障。目前,数字档案长期保存领域的风险评估主要是以数字档案资源为评估对象,如NARA“2017战略”评估了数字档案资源的格式与载体过时风险,据此选择优先采取的长期保存策略。[30]而“目标树”则提供了新思路,即针对技术方案进行效用评估。

我国档案部门可以采取如下做法:一是引入效能分析法,在效能分析的流程中每个步骤有各自的研究方法、测量方法和不同的测量指标,整个评价的过程透明而清晰,[31]有助于提高技术方案评估的规范性与准确性;二是借鉴“目标树”的递进式评估,首先初步筛选出大体符合保存目标和需求的技术方案,在此基础上进行技术方案间的精细比较,有助于精简评估流程、优化选择技术方案,为长期保存实践提供技术保障。

3.4 树立规划意识与全局观念,提供方向引领。我国档案部门可以参照“目标树”形成的全局性保存计划,树立规划意识与全局观念,为长期保存的整体实践提供方向引领。长期保存策略安排目前缺乏全局性和整体性的规划设计,致使技术方法的应用缺乏针对性或技术方法种类单一、功能欠缺,从而导致长期保存效果不彰、效益不高。[32]

我国档案部门可以采取如下做法:一是要制定长期保存路线规划,对长期保存的整体运行与未来发展作出全局性的设计与规划,不仅为技术方案的优化选择提供保障,还可以在整体上促进长期保存的持续发展;二是要制定长期保存的总体目标,为技术方案的优化选择提供方向引导,指导优化选择朝着与保存目标更加契合的方向推进,促进技术方案效用最大化,提高数字档案生存能力,如英国国家图书馆基于整体发展的需要,制定了保证数字馆藏内容动态更新的目标。[33]需要注意的是,所制定的规划与目标必须符合我国国情,最好形成正式的书面文件,在长期保存实践中作为指导依据遵照执行。

参考文献:

[1][31]宛玲,吴振新,郭家义.数字资源长期战略保存的管理与技术策略——中欧数字资源长期保存国际研讨会综述[J].现代图书情报技术,2005(01):56-60.

[2][12]聂云霞.国家层面数字资源长期保存策略研究[D].武汉大学,2014.

[3]陶水龙.档案数字资源云备份策略的分析与研究[J].档案学通讯,2012(04):12-16.

[4][24]高旭,赵豪迈.数字档案长期保存利用技术机制[J].档案学通讯,2013(06):85-89.

[5]连成叶.论数字信息档案长期安全保存策略[J].档案学通讯,2004(03):34-38.

[6]史雅莉,赵童.数字档案资源的长期保存元数据方案研究——以英国国家档案馆为例[J].北京档案,2020(10):38-43.

[7]刘越男,吴云鹏.基于区块链的数字档案长期保存:既有探索及未来发展[J].档案学通讯,2018(06):44-53.

[8]徐瑞平.数字迁移研究[J].河南图书馆学刊,2007(06):104-106.

[9]王军.基于成本分析的数字资源长期保存策略研究——迁移法与仿真法比较[J].图书情报知识,2006(01):74-77.

[10]肖秋会,张瑜.非结构化数字档案资源长期保存的挑战及应对策略[J].中国档案,2016(07):74-77.

[11]陈慰湧,秦建伟.数字信息长期保存研究现状分析[J].浙江档案,2008(01):43-45.

[13][27]谢永宪,王巧玲,房小可,薛怡.我国国家综合档案馆数字档案信息长期保存现状调查[J].档案学通讯,2019(04):58-62.

[14]熊燕.数字资源长期保存的策略研究[J].农业图书情报学刊,2010(04):124-127.

[15]谢永宪,王巧玲,闫格.我国档案形成机构数字档案信息长期保存现状调查[J].北京档案,2019(02):28-31.

[16]Planets[EB/OL].[2021- 05-15].http://www.planets - project.eu /.

[17][18][22]StephanStrodl,Christoph Becker,Natasa Milic-Frayling.Report on methodology for specifying preservation plans[R].Vienna:TUWIEN,2007.

[19][20]Plato[EB/OL].[2021-05-15].http://www.ifs.tuwien.ac.at/dp/plato/team/.html.

[21]耿志杰,程明宵.数字档案长期保存技术策略规划研究[J].档案与建设,2018(05):24-26.

[23]BrianAitken,PetraHelwig,AndrewJackson,et al.The Planets Testbed:Science for Digital Preservation[J].Code4Lib Journal,2008(03)

[25]Christoph Becker,Hannes Kulovits,Andreas Rauber,et al.Plato:a service-oriented decision support system for preservation planning[C]//Proceedings of the ACM/IEEE Joint Conference on Digital Libraries (JCDL'08).Pittsburgh,Pennsylvania:ACM,2008.

[26]張瑜.数字档案长期保存风险的识别与应对策略[D].武汉大学,2017.

[28]张智雄,林颖,吴振新等.数字信息资源长期保存技术体系研究[J].现代图书情报技术,2006(04):2-7.

[29]陈清文,高红文.数字档案合作保存模式研究[J].浙江档案,2010(01):26-27.

[30]祈天娇.美国数字档案资源长期保存战略的分析与启示[J].档案学研究,2019(01):108-113.

[32]谢永宪.中国数字档案信息长期保存的策略体系研究[M].北京:研究出版社,2019.

[33]柴会明.图书馆数字资源长期保存的目标?原则与策略——基于英美德澳4国国家图书馆数字保存战略的分析[J].图书馆学研究,2020(14):57-62,75.

(作者单位:耿志杰,上海大学图书情报档案系讲师;郭心竹,上海大学图书情报档案系在读硕士研究生 来稿日期:2021-06-16)

猜你喜欢
数字档案技术方案
广西南宁以“数字档案”提高税务稽查效率
数字档案生态链信息流转效率提升策略研究
研究数字档案信息安全保障体系
山区县农村土地承包经营权登记颁证项目技术路线分析
浅谈露天煤矿绿化复垦可行方案与政策
构建数字档案信息安全保障体系的研究
长江船岸无线宽带网的建设技术与方式比选