档案数字化攻略

2019-12-16 20:12韩李敏浙江省档案学会

浙江档案 2019年1期

韩李敏/浙江省档案学会

1 影响档案数字化的五大因素

影响数字化的因素很多，对档案而言，不同于图书等文献资料，其影响因子主要有五个：一是档案的自然形成因素，二是档案的归档整理因素，三是档案的涉密因素，四是档案的凭证价值及长期保存因素，五是档案的利用因素。开展档案数字化工作，大到制定设计方案和编制数字化规划，小到档案数字化的前处理和数字化各种技术指标的确定，都必须考虑这五大因素的影响。

1.1 档案的自然形成因素

与图书等文献不同，档案是历史自然形成的，是历史的真实记录。正因为档案的自然属性，使得形成的档案，无论是载体还是字迹，都是形态各异、五花八门的。就载体而言，其形态不一、规格不一，载体用材也是不一样的。在同一卷档案中，有机制纸、有手工纸；同样是手工纸，还有草纸、竹纸、棉纸、木浆纸等的不同。不同材质的纸，受保存时间、保存条件的影响，纸张的颜色变化也是很大的；就字迹而言，也同样多姿多彩：有墨迹、蓝墨水字迹、红墨水字迹、铅笔字迹、圆珠笔字迹、铅印字迹、油印字迹、传真字迹、喷墨字迹，还有红印泥、蓝印泥等。

各种自然形成因素，对数字化成像提出了不同的技术要求，如果使用单一的扫描设置，势必造成顾此失彼。

1.2 档案的归档整理因素

所有文件经过归档整理，才成为档案。文件在归档整理过程中，添加了大量的人为“干涉”，使得原来自然状态下形成的“无序”文件，变成一卷卷、一件件的有机集合体，成为能够长期保存和使用的档案。档案部门经过长期的实践，形成了一整套的档案整理的理论与方法，并通过各种标准与规范，将整理的经验固定下来，指导和规范档案工作者的整理行为。目前，我们还能从档案中，发现各个不同历史时期，人们整理档案的历史轨迹。档案整理的方法是建立在传统纸质档案整理基础上的，其条件是手工管理，其目的是长期保存和利用。

档案经过数字化以后，成为电子影像，其保存和利用环境发生了根本性的变化。在手工管理背景下形成的档案整理理论与方法，对于电子影像的保存和利用，造成了直接的影响。例如，传统的档案整理中，特别强调文件内容间的有机联系，报告与批复等关系非常紧密的文件，整理时都要求整合在一起、装订在一起，作为一件档案来保存和利用，不论其内容信息敏感或涉密与否。传统档案在利用时，可以根据实际情况，提供一件（一卷）档案中的部分信息或全部信息。但是数字化以后，在网络环境下要采用传统的利用方式，对一件电子档案进行部分信息的可阅读、部分信息的限制阅读，实现起来是非常困难的。

1.3 档案的涉密因素

任何一个单位和部门保存的档案，总有部分文件是涉密的，且对于涉密文件归档和整理都有章可循。但是对于涉密文件的数字化，我们必须遵守国家涉密电子文件管理的要求。绝密文件一般不数字化；机密级及以下文件虽可以数字化，但必须严格执行国家保密管理规定，尤其是涉密数据的存储、管理和使用，必须要通过相应的涉密网络及管理系统。

1.4 档案的凭证价值及长期保存因素

档案是历史凭证，是需要长期保存的。当纸质档案转化为电子数据以后，档案的凭证价值和长期保存等要求，同样体现在数字化成果上。为此，在数字化成果的存储和管理上，除了考虑一般数据的存储载体、存储容量、安全备份等因素外，还要特别注意以下问题：一是如何保证数字化成果的凭证价值，保证电子数据的真实性和防篡改性；二是如何保证电子数据的长期有效性。数字化后形成的电子档案，不仅要现在可读，而且要让其“传宗接代”，保持长期的可利用。

1.5 档案的利用因素

在长期的实践中，档案工作从理论层面到操作层面，形成了一整套利用服务机制，以满足档案的管理需要。在传统的档案利用活动中，除了制度以外，许多时候还要依靠人为干涉，保证利用工作正常进行。

在信息化、网络化的时代，传统的利用方式面临着前所未有的大挑战。图书等文献资料完成数字化工作，就可以立即投入使用了，但是档案却不行，为什么？因为档案中有可公开信息，有不可公开的内部信息。如何保证不开放的信息在数字化以后仍然保持封闭状态，除了要在数字化之前把可公开信息与内部信息进行严格区分外，还要在网络布局、系统设置及管理等许多方面作出相应的调整和部署。所以要保证档案数字化成果的可利用、可共享，前期的设计非常关键，否则功亏一篑，这绝非危言耸听。

2 传统档案整理方法对数字化的影响

2.1 传统的档案整理特点

档案的归档整理实际上主要是两项工作，一是将不需要归档的文件剔除掉，二是将需要归档的文件进行有序整理，使原来无序杂乱的文件成为系统有序、具有内在联系的一个整体。

归档整理完成的档案以卷或件为单位进行保存。归档整理后的“件”与原始记录状态的“件”不是同一概念，归档后的“件”是若干份“自然件”的集合，是人们经过加工，将若干个具有有机联系的“自然件”组合在一起，进行有序排列，并通过统一编号固化其排序及有机联系。归档整理极大提高了档案检索的查准率和查全率，也是档案长期保存和管理的有效手段。

比如，将报告与批复在归档时整合在一起，这是最典型的保持有机联系的整理方式。但是由报告与批复组成的一件归档材料并非仅仅由2份“自然件”组成，一般的报告与批复归档件少则由2—5件“自然件”组成，多则十几件，甚至上百件“自然件”组成一组（套）归档件。

经整理后归档的材料，它们的共同点是：一条目录对应若干个“自然件”，组成这些“自然件”的生命纽带是“文件内容的有机联系”，不论文件是否带有密级或敏感信息。

2.2 传统的档案整理方法对数字化的影响

影响之一：密与非密不分，直接影响扫描数据的存储、管理及利用。现在的保密要求明确规定：密与非密混在一起，一律按涉密数据处理；低密级数据与高密级数据混在一起，一律按最高密级数据处理。对于行政审批、干部人事等材料，往往结论性的最终批复材料都是可公开的信息，而报批材料和机关内部审批过程中形成的内部文件，往往带有敏感信息和涉密内容。现在将可公开的政府信息和涉密或敏感信息经整理后组合在一起，不仅让扫描后形成的数据出不了涉密网，更极大地限制了可公开信息的共享和档案数字化成果的利用服务。

影响之二：用一条目录对应若干个“自然件”，经数字化扫描，即造成一条文件目录下面挂接了若干个“自然件”的情况。由于数字影像的阅读与纸质档案的阅读有着很大不同，当阅读者不懂档案整理规则时，面对一条目录下面多个文件时，势必造成阅读障碍。

2.3 针对传统整理方法数字化对策

在档案数字化过程中，如何解决传统档案整理方法对数字化工作带来的负面影像，笔者的建议是：

第一，即“拆件”，以“自然件”为单位进行数字化。在档案数字化前处理阶段，就将原来的档案以“自然件”为单位，重新登记。

第二，补目录。对于每个自然件，都给予一条对应的目录。尤其是正式的收发文，必须一文一目录。其他内部文件，编目时可以简单化，仅仅标明主题及之一、之二等即可。在著录时，必须标明密级及公开与否等信息。

第三，补编档号。在原有档号基础上增加一个件号字段，保证新出生的每条目录都有编号。同时保留原有的档号，保持文件之间的有机联系。

计算机的优势就是不怕细，只怕粗。以“自然件”为单位进行数字化，能够较好地解决管理、利用中的涉密和阅读问题。尤其是针对中华人民共和国成立后形成的档案，不失为一种有效的补救措施与方法。

3 档案数字化扫描中主要技术指标的选择

3.1 扫描色彩模式的选择

扫描色彩模式分为彩色、灰度、黑白三种。在不考虑压缩等其他因素的情况下，三种扫描模式产生的影像，除了色彩不一样外，最大的不同就是容量。按照理论测算，24位彩色图像大小是8位灰色图像的3倍、黑白图像的24倍。也就是说，一页10M的彩色影像，如果改用灰度扫描，实际为3.4M，若用黑白扫描，实际只有0.4M左右。作为一页也许感觉不到，但是如果以100万页计算，差距就大了，彩色扫描会形成9.5T数据，灰度扫描为3.2T数据，黑白扫描只有0.38T数据。

不同的色彩模式对于图像的清晰度也有一定影响。对于原件清晰的档案，不同的色彩模式差别不明显；但对于原件字迹不清晰、色彩丰富、对比不强烈的档案原件，如蓝图、印章、铅笔字迹、复写纸字迹等，彩色影像在展现档案原件细节和清晰度方面，明显要优于灰度和黑白影像。

许多单位的档案数字化，早期大都采用黑白的扫描模式。究其原因，一方面是囊中羞涩，受资金短缺的影响，承受不起数据容量之重，因为扫描文件容量一大，不仅涉及存储，而且涉及压缩技术、网络带宽、系统运行速度等一系列问题；另一方面我国早期的档案数字化目的主要是为了方便计算机及网络的应用，是以制作成档案副本考虑的，并没有取代纸质档案原件的设想。

随着技术的进步，计算机存储成本的大幅度下降，运行速度的飞越发展，政府财政的改善，资金和技术已不是困扰我国档案数字化的主要瓶颈。同时国家对于档案数字化的要求有了很大提高，要求各部门的档案数字化，不仅为了用，更要从国家安全的高度来考虑，要求用数字化副本代替原件进行保存和提供利用。

为此，要适应档案原件自然形成，文件的载体与字迹差异性大的特点，为最大限度保持档案的原貌，档案数字化扫描选择彩色模式，应是大势所趋。当然，对于工程档案等特殊情况，仍要从实际出发，不能搞一刀切。

3.2 扫描分辨率的选择

分辨率对于扫描图像幅面大小、容量大小、图像清晰程度以及扫描时长都有直接影响。理论上讲，扫描图像分辨率越高，所占用的扫描时间越长，文件也越大，图像清晰程度越好。扫描分辨率提高一倍，文件容量约增加4倍。但是，我国专家郝晨辉在《档案行业标准〈纸质档案数字化技术规范〉的修订》一文中指出：“通过实验我们也发现，分辨率在调高到一定程度时，分辨率的增加并不会明显改善清晰程度，而其所需的存储空间则会明显增加。”因此，选择合适的分辨率是档案扫描的技术关键之一。

影响分辨率选择的因素主要还是“用”，即数字化的目的。如果仅仅为了计算机浏览，一般75DPI足够了；如果要保证利用中能打印输出，至少要100DPI以上；如果要让扫描影像能够作OCR识别，保证利用中能够实现全文检索，就要求200DPI以上；如果扫描影像还想输出到缩微胶片（COM）上，就要求达到300DPI以上；如果扫描影像用于出版印刷，由于出版物规格不同，精度要求也不同，一般在200—500DPI之间；如果用于仿真复制和仿真出版，要求分辨率到达600DPI。

在纸质档案扫描中，涉及档案中的照片，还是要做特殊的处理。建议用500DPI以上扫描，确保照片的层次性和色彩的丰富性。

我们平时扫描，不可能将所有的利用需求都考虑在内，只需照顾大部分利用的需求就可以了。档案影像的浏览、打印、全文检索是我们的一般需求，因此一般的档案扫描，国家标准建议“扫描分辨率应不小于200DPI。如文字偏小、密集、清晰度较差时，建议扫描分辨率不小于300DPI”，是非常科学的，能够满足我们绝大部分的利用需求。至于300DPI以上的需求，则根据扫描的特殊利用要求，作相应的选择。

3.3 扫描图像存储格式的选择

存储格式是扫描所涉及的第三项重要技术指标。目前，国家标准要求“纸质档案数字图像长期保存格式为TIFF、JPEG或JPEG2000等通用格式，图像压缩率的选择可根据实际应用的需求而定”。

TIFF是当今使用得最普遍的存储格式，其优点是可以实现对图像的无压缩存储或无损压缩存储，能保持原有图像的颜色和层次；另一优点是可以多个数字影像合成为一个文件，用多页TIFF加以保存，非常适合档案。其缺点就是占用存储空间很大。JPEG是一种有损压缩格式，在采用较高压缩率的同时能获得较好的图像质量；JPEG具有调节图像的功能，允许用不同的压缩比例对文件压缩，方便在图像质量和文件大小之间找到平衡点；其应用也非常广泛，目前各类浏览器均支持JPEG这种图像格式。JPEG2000既支持无损压缩，也支持有损压缩，在相同图像质量条件下可以获得比JPEG更高的压缩比，而且能够实现图像的渐进传输。JPEG2000在2017年被写入国家标准，但是该数据格式在图书部门应用比较多，档案部门使用得很少。

3.4 数据存储格式与利用格式不能混为一谈

在实践中，我们经常发现不少部门和单位将存储格式与利用格式混为一谈。

在图书等其他部门，对于数字图像存用不分，一般只保留一种格式。我国档案数字化从标准订立起，就确定了档案扫描数据存用分离的原则，即存储格式是TIFF、JPEG等，使用格式是PDF等其他格式。国家标准明确规定：“纸质档案数字图像利用时，也可从网络浏览速度、易操作性、存储空间占用等方面进行综合考虑，将图像转换为PDF等其他格式。”

有的单位以为扫描文件转成利用格式以后，原来的长期保存格式文件就不需要了，为节省计算机存储空间，就将TIFF或JPEG等格式的文件数据全部删除销毁。殊不知，不同的数据格式其功能是不一样的。PDF等格式中的图像文件是经过再压缩处理的，用于长期保存的图像文件一般每页约在1M以上，PDF格式中的图像文件，黑白图像每页约为30K左右，彩色图像每页不超过300K左右，其他利用格式也相差无几。所以利用格式中的图像文件只适用于浏览，而要打印等其他利用，其图像质量是远远不够的。该问题在机关和县级档案馆中，反映得尤为突出。许多档案馆在接收中，遇到移交单位只有PDF等利用格式的文件，要求其转换成TIFF等格式进行移交，实际上这是自欺欺人罢了。经PDF等压缩后再转出来的图像，已经根本不是原来扫描所产生的图像，其分辨率等技术指标已经远远达不到存储要求。

4 档案数字化的后期处理问题

这里所说的档案数字化的后期处理指的是数字化扫描、图像处理、数据挂接等完成以后，还要做的几项工作。在国家标准中，数字化扫描、图像处理、数据挂接完成后，就是数字化成果验收。但是在实际工作中，还有几项大的工作是无法回避的：一是OCR识别；二是数据压缩和利用格式的转换；三是数据的刻盘和存储。如果实行数字化外包，这几项工作也都由外包公司来完成。所以，笔者将其列为数字化的后期处理工作。

4.1 OCR识别

OCR识别是现在数字化中普遍开展的一项工作，其目的是解决档案全文检索问题。没有OCR识别，我们只有依靠目录查找扫描文件，但是对于文件中的内容，仍然是无法检索的。做了OCR识别，不仅能查到文件标题，而且对于文件内容也可以进行主题检索，这样大大提高了文件的检索深度，也提高了文件的查准率和查全率。目前新国标将档案扫描的最低分辨率提高到200DPI以上，从根本上解决了OCR识别率低的问题。所以，新国标也为OCR识别扫清了技术障碍。目前，在OCR识别中存在的主要问题是：

一是对OCR的误解，认为随便什么文件都可以做OCR识别。事实上OCR只能对正规的书写体进行识别，而对于手稿一般是不易识别的。当然，正楷手写字和早期的钢板刻字、雕版印刷体，OCR也还是可以识别的。对于竖版文件，必须依靠专业的竖版OCR识别软件才能识别。

二是OCR识别率问题。识别率一般达到90%以上，已经基本满足档案全文检索的需要了。有的人片面追求识别率，一定要求识别率达到98%—99%的，反复校对，实际上是浪费人力物力。

三是对于OCR识别节点的把握。OCR识别应该安排在扫描文件压缩之前进行，因为识别率的高低很大程度上取决于图像扫描分辨率的高低。国标规定200DPI的分辨率本来是可以满足OCR识别需要的，如果做了有损压缩，图像分辨率就会严重下降，这时再做OCR识别，就会直接影响识别效果。

四是对于OCR文件的命名问题。经过OCR识别，必然与扫描文件相对应地产生一个OCR文件。由于事先没有统一规范要求，软件一般会自动命名OCR文件。对于这种自动命名的OCR文件，一旦遇到数据迁移或移交，很难保证与原来扫描文件的对应关系。目前，档案馆从机关接收数字化成果，就普遍遇到这个问题。

4.2 扫描图像数据的压缩

扫描完的数据必然要做压缩，但是如何压缩、压缩到什么程度，这是大家最为纠结的问题。国家标准要求“纸质档案数字图像长期保存格式为TIFF、JPEG或JPEG2000等通用格式，图像压缩率的选择可根据实际应用的需求而定”。

TIFF格式可以实现对图像的无损压缩（LZW）。所谓无损压缩，通俗地讲，就是可以完全还原的一种压缩方式。压缩不影响文件的内容，不会使图像细节数据有任何的损失，能保持原有图像的颜色和层次，但占用存储空间比较大。如果把扫描图像作为档案原件替代品来看待，TIFF的无损压缩（LZW）作为长期保存格式应该是较为理想的一种选择。

有损压缩就是通过降低图像的像素来达到压缩文件大小的目的。比如JPEG格式就是一种有损压缩数据格式。有损压缩不能还原原始的图像信息，是一种不可逆的压缩。经过有损压缩的图像，图像分辨率会降低，图像的幅面会变小，图像的质量会发生变化。所以，当我们选择采用JPEG压缩格式作长期保存格式时，必须在图像质量和文件大小之间找到平衡点，保证图像质量不受影响。

JPEG2000既支持无损压缩，也支持有损压缩。JPEG2000在相同图像质量条件下可以获得比JPEG更高的压缩比，而且能够实现图像的渐进传输。

现实中，JPEG、JPEG2000更多的是从实际利用需求出发，作不同程度的压缩。例如，浙江省档案馆制作黄埔军校同学录数据库的过程中就选用了JPEG格式，将扫描后的同学录照片数据，制作成两种压缩率的数据，一种是高倍压缩率的JPEG，用于网络提供利用。10多年来，人们在“浙江档案网”上查阅到的黄埔军校同学录照片都是高压缩率的图像，每张照片只有几K大小。此外，省档案馆还有一份低压缩率的JPEG图像，为利用者直接提供复制还原服务。

JPEG、JPEG2000应用最典型的要数日本公文书馆。大家在该馆的网站上，可以获得各种不同压缩比的档案数据。例如日本天皇诏书，网站提供了JPEG和JPEG2000两种格式四种压缩比的档案，供观众自由下载。经下载比较观察，以《终战诏书》的首页为例：最低解像度的分辨率为1268×1770像素（360K）；中解像度的分辨率为2535×3539像素（1.08M）；高解像度的分辨率为5069×7078像素（3.09M）；JPEG2000的分辨率也是5069×7078像素（3.15M）。低解像度满足了一般浏览的需要，中解像度就可还原打印了，高解像度JPEG和JPEG2000不仅可以用于印刷出版，而且举办展览、仿真复制也都能满足需求了。

4.3 关于扫描数据的格式转换

国家标准规定：“纸质档案数字图像利用时，也可从网络浏览速度、易操作性、存储空间占用等方面进行综合考虑，将图像转换为PDF等其他格式。”

由于档案文献与图书等其他文献一样，绝大部分是书本式的，为便于网上浏览，一般都转换成PDF等版式，也称之为电子书格式。现在除了PDF外，还有DJVU、OFD等多种格式可以满足网上浏览的需要。PDF等文件格式特点就是可以将文字、图像等封装在一个文件中，该格式文件还可以包含超文本链接、声音和动态影像等电子信息，支持特长文件，集成度和安全可靠性都较高。比如，经OCR识别形成的文本文件与扫描形成的图像文件本是两个文件，如果单独使用，必须用不同的浏览器才能打开，现在用PDF格式将两种格式的文件集成在一个文件里，既满足了浏览的需要，又满足了全文检索的需要。

4.4 扫描图像数据的刻盘和移交

数字化成果验收合格后，就要对数据刻盘和移交。一般刻盘都选择DVD光盘。光盘具有脱机保存、成本低、安全性高等优点，深受大众的欢迎。但是DVD光盘也存在单位容量小、寿命短、管理麻烦等缺点。因此建议数字化成果的移交必须保证两种形式：光盘和硬盘。尤其对于外包加工来讲，移交数字化加工硬盘也是确保数据安全的一个重要手段。