浅谈档案数字化图像信息的处理

2017-08-16 05:53李青

山东档案 2017年3期

文·李青

浅谈档案数字化图像信息的处理

文·李青

近年来，随着社会网络化、信息化程度不断提高，人们获得信息和利用信息的方式和手段也不断发展更新，传统档案信息低效率和高成本的保存与利用方式已不能适应现阶段的利用需求。利用计算机、网络等信息技术开展馆（室）藏纸质载体档案“存量数字化”，提高档案信息综合服务水平，已成为档案界的共识，也是档案部门开展数字档案馆（室）建设的必由之路。

纸质档案数字化是指采用扫描仪或数码相机等数码设备对纸质档案进行数字化加工，将其转化为存储在磁带、磁盘、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程。数字化成果很重要的一个部分是数字图像信息，相对于数字文本信息来讲，图像信息的处理和存储较为复杂多样，根据目前的设备和技术情况，摸索建立一套行之有效的工作流程和标准规范，对于信息资源数字化后信息质量的统一和提高，促进档案事业持续快速健康发展，对于今后各档案馆之间以及与其他单位的信息资源交换具有重要意义。

一、对档案数字图像信息的要求

（二）需要“永久保存”；

（三）需要便于查阅；

（四）需要便于网络传输；

（五）在满足以上条件基础上需要占用最小空间。

二、通用的图像压缩与存储标准

数字化的图像存储就是要尽可能多地将原始资料的图像信息保留至数字化载体中。由于纸质载体数字化后数据量非常庞大，压缩技术一直就是图像存储的重要课题。图像压缩的原理是在保证一定的图像质量的前提下，以一种数学运算方法将图像的数据量降到最小。图像压缩分为无损压缩和有损压缩，顾名思义无损压缩就是不破坏原有图像信息或所有图像信息均可通过一定的算法恢复的压缩方法，而有损压缩则是在可接受的图像质量条件下对图像进行的一种不可复原的压缩方法。有损压缩比无损压缩有更高的压缩比，因而压缩后的图像数据量更小，因此多用于网络传输等对数据量要求较为严格的条件下。关于图像压缩存储的方法很多，现阶段档案行业一般常用下面几种格式：

后评估作为检验配电网规划成效、改进配电网规划工作的手段之一，其重要意义已得到广泛认知，电网企业在加强配电网规划工作时普遍提出了后评估的要求。

（一）TIFF

TIFF格式的图像允许存储相当多的位信息，最多每个象素点可存储到32 bit，一般最常用的是24 bit。最初设计TIFF的初衷就是要能够将扫描的图像在不同的平台上进行高质量的打印，所以TIFF格式比较适合作为高质量的保存原件的图像存储格式。TIFF格式允许RGB模式或者CMYK模式，因此TIFF图像在显示及打印两方面都能保持较高质量，尤其是在设计和印刷领域，TIFF文件格式的应用范围相对较广，质量也相对较好。TIFF能以符合LZW算法的无损压缩格式存储彩色图像或256级灰度图像，也能以符合CCITT G4算法的无损压缩格式存储黑白图像。TIFF还可以JPEG算法保存有损压缩图像，但这种图像保存方式与JPEG没有太大区别，因此应用范围较少。

（二）JPEG

JPEG是目前网络应用中最常见的图像格式之一。JPEG也是目前应用最广泛的压缩存储格式，其图像压缩的效率极高。JPEG还是一个很灵活的图像存储格式，允许以不同的质量要求来对原图进行不同倍率的压缩。JPEG采用的是一种有损压缩的算法，这在放大显示时很明显可以看出，对于高质量的打印其效果也会有差别。所以JPEG不适合作高质量保存原件的存储格式，但因其压缩效率极高，因此非常适合网络应用，通常情况下可以用JPEG对原图作15到20倍的压缩，仍能得到可以接受的视觉效果。

（三）JPEG2000

JPEG2000作为JPEG的升级版，其压缩率比JPEG高约30%左右，同时支持有损和无损压缩。JPEG2000格式有一个极其重要的特征在于它能实现渐进传输，即先传输图像的轮廓，然后逐步传输数据，不断提高图像质量，让图像由朦胧到清晰显示。此外，JPEG2000还支持所谓的"感兴趣区域" 特性，可以任意指定影像上感兴趣区域的压缩质量，还可以选择指定的部分先解压缩。JPEG2000和JPEG相比优势明显，且向下兼容，因此可取代传统的JPEG格式。JPEG2000即可应用于传统的JPEG市场，如扫描仪、数码相机等，又可应用于新兴领域，如网路传输、无线通讯等等。

（四）PDF和OFD

PDF和OFD是两种版式文件格式。PDF是美国Adobe公司于1993年开发的一种版式文件格式，目前已经成为国际标准格式。OFD是按照我国工业信息化部组织成立的电子文件存储和交换格式工作组版式文档编写组制订的版式文档标准形成的版式文件格式。这两种文件格式并不是专业的数字图像压缩或存储格式，他们只是将现成的图像文件合并组织为一个完整的版式文件。采用版式文件管理数字图像一是便于将一件档案文件组合为一个计算机文件，方便浏览与传输；二是数字图像格式的文字可以通过OCR技术形成双层PDF或者双层OFD，实现数字图像的全文检索。

三、档案数字化图像处理的原则

根据对相关技术与标准的考察，并且考虑到目前国内的应用水平与未来的扩展情况，笔者认为在开展档案数字化图像处理时应依据如下原则：

（一）标准性

标准性即是要求选用的图像标准或方法符合国际上的通行标准、事实标准或通行做法，以保证不会在国际交流中的产生困难，从而保证一定的互操作性。只有符合现有的通用标准，才具有较强的生命力。标准性提供了可扩充性，具有升级的能力，具备被向下兼容的权利。

（二）可操作性

指所采用的标准规范及工作流程要符合工作人员实际的能力和技术水平，使一般工作人员经过短时间的培训就能够操作。信息资源的建设是一个劳动密集型的行业，虽然具有相当的知识要求，但大量的基础工作不能要求普通工作人员都具备应付复杂工作的能力，过于复杂的标准和处理过程也不利于品质的控制。

（三）前瞻性

在开展档案数字化时要在考虑软硬件因素时适当的留有发展余地，如在网络带宽发展的情况下就能合理的时间内传送更高质量的图像。同样对于电脑、显示器，其它硬拷贝等设备也要考虑到它们快速发展的可能性。在制定标准的情况下留有相当的发展空间。

（四）多用途

在一定程度上讲，档案数字化也是对档案原件的一种损毁。因此在开展档案信息资源数字化时，要充分考虑档案数字化成果多方面的应用场景，尽量保证一次数字化能尽量满足绝大部分利用需求。不推荐仅从方便档案查阅的角度简单地确定数字化技术参数，还应充分考虑仿真件制作、档案展览等应用。

四、档案数字化应当注意的问题

综上所述，笔者对档案数字化工作的技术参数和后期处理提出如下建议：

（一）应当采用较高的技术参数开展纸质档案数字化。页面中有红头、印章或插有彩色照片、彩色插图的档案应采用彩色模式进行扫描，页面为黑白两色的档案应采用灰度模式进行扫描，尽量不使用黑白二值模式。

（二）应用彩色模式扫描时，其分辨率一般建议选择600dpi。灰度模式扫描时，其分辨率一般建议选择200dpi。特殊情况下，如文字偏小、密集、清晰度较差等，可适当提高分辨率。

（三）数字化成果中应当尽量保持纸质档案原貌，不应不加选择的进行去污和裁边处理。

（四）有条件的单位，在开展档案数字化工作的同时，应该同时开展OCR识别工作，便于实现全文检索、计算机辅助编目、编研开发和数据挖掘等。

五、档案数字化图像信息处理

档案数字化完成后，应按照不同的应用形式，分存储层、应用层、索引层等三个层次进行数字图像处理，分别用于图像的存储与再生、网络应用和图像索引。

（一）存储层保存纸质档案数字化原始成果图像，以现有的通用软硬件来达到以较高品质储存原图像资源，并能够以现有的硬拷贝设备来再生原有的图像资源。这一层的规范既要考虑到现有软硬件设备及存储设备的限制，又要保证一定质量上的再生效果。同时这一层次应不要求进行实时利用，这样就能利用现有的设备进行前处理及输出的时候就可以接受较长的处理时间。在图像格式方面，由于数字化处理对原有资源信息已有相当大的损耗，因此在存储格式上必须采用无损压缩的数据格式，而采用无损压缩的TIFF格式能完整再生我们处理的数字化图像信息

（二）应用层主要以网络传输及电脑利用为目的。考虑目前的网络传输带宽及现有电脑的输入输出能力是界定这一层次标准的参考指标。同时这一层次作为一个中间的应用层，可以根据今后网络及电脑能力的发展而进行重新定义，以满足更高层次的应用需求。因为这一层图像资料是由存储层的资源生成而来的，所以其标准最高上限是存储层的标准。目前网络上应用最广泛的存储格式就是JPEG，因此选用JPEG格式作为应用层图像存储格式。根据实践经验，目前在网络上传输的单个图像文件，其容量最好不要超过1MB，否则在网络上传输会遇到时延过长的问题。另外，在应用层次上，也要考虑现有显示设备的限制。以19寸液晶显示器为例，传统的4:3显示器分辨率为1280×1024， 16:10的宽屏显示器分辨率为1440×900，所以选择以1440像素为应用层的最大图像尺寸限制。有条件的单位可以考虑使用Jpeg2000文件格式在网络上传送容量较大的数字图像，利用其“逐渐清晰”的显示特性获得较为人性化的应用体验。

在应用层也可以考虑将数字图像压缩后组织成PDF或OFD等版式文件形式进行利用，有条件的可使用双层PDF或者双层OFD实现全文检索。需要注意的是，在某些按档案页数付费应用的系统中，使用版式文件可能会增加付费系统程序设计的复杂程度。

（三）索引层是为了网络浏览导航，简介，索引库等应用而设，这一层的设置要求以最小合理的资源大小来满足索引的应用需求。这一层的格式一经界定后较为固定，一般也不会随着应用的变化而有所改变。索引层作为通常意义的拇指图，对图像不会有过高的质量要求，一般选择最大图像尺寸为200像素的JPEG格式存储索引层图像。

下表为三层的具体技术标准（表中数据数字化原件为A4文件，图像尺寸与大小仅供参考）：

层名图像类型存储格式分辩率图像尺寸（大小）彩色TIFF(LZW) 600dpi 1275×1750（6.7M）灰度TIFF(LZW) 200dpi 2550×3501(4.4M)存储层彩色JPEG 600dpi 1048×1440（667K）*灰度JPEG 200dpi 1048 x 1440（442K）黑白JPEG 200dpi 1048 x 1440（237K）**应用层彩色JPEG 600dpi 145 x 200（15K）***灰度JPEG 200dpi 145 x 200（10.6K）黑白JPEG 200dpi 145 x 200（8.5K）索引层

*应用层图像大小在保证图像纵横比不变的情况下，将长边设定为1440像素。

**黑白图像为灰度图像做二值化处理后的结果。

***索引层图像大小在保证图像纵横比不变的情况下，将长边设定为200像素。

（作者单位：青岛市广播电视台）