收集原生电子档案应“图文并存”

2015-06-25 09:34程媛媛
档案管理 2015年4期
关键词:图文双层文档

程媛媛

档案局2012年以令的形式发布了《电子档案移交与接收办法》,根据媒体报道和笔者调研掌握的情况,各地电子档案收集的格式主要以图片格式为主,文本格式为辅。众所周知,图片格式的电子文件较文本格式虽更具有不可更改性,但因受自身格式的限制,只能通过题名进行检索,不能实现全文查询,这样就会影响电子档案的查全率和查准率,也与档案数字化的初衷大相径庭。而文本格式的电子文件虽然可以实现较为全面的全文检索,但其易于更改的属性又与电子档案管理保持原貌、保证安全的要求相违背。因此,多数档案部门往往从“确保原生电子公文的真实性、有效性、安全性”的角度出发,而“弃文从图”,要求“将原生电子公文以统一的数据格式(PDF格式)进行数据转换,实行集中管理”。笔者认为,做好原生电子档案的移交接收工作,必须注重规范其格式,应结合二者的优点,将收集到的“文”和“图”,形成双层PDF格式文件,使得两种单一的电子文件转化成“图文并茂”的形式,达到既能实现全文检索又能维持档案原貌的效果。

实践发现,如未同时收集文本电子文件而仅收集图片电子文件,制作双层PDF的方法虽然简单,但实际操作却较为繁琐。下面,我们介绍一种制作双层PDF格式电子文件的具体步骤:

1.扫描一页文档,命名为1.tif。

OCR识别软件,从图片中读取文件1.tif。

3.点击左上方菜单栏中的“识别”选项(图1)。

4.得到识别后的结果(图2)。左侧红色方框为扫描图片,右侧红色圆框为识别后文本。对文本进行校对、

修改后,点击左上方菜单栏中的“WORD”选项。得到WORD格式的文本文件,保存并命名为2.doc。                             5.使用WORD2007软件,打开2.doc。点击“插入”,选择“图片”选项,将1.tif 插入2.doc。

6.选择“格式”,点击“位置”、“其他布局”选项。选择“衬于文字下方”,确定。即得到初始的双层文件(图3)。此时文本与图片未一一对应,因此能看到两层。

7.将图片调整至标准页面大小,进行文字排版,使其与图片内容排版一致(图4)。注意:此项是制作的关键,调整应选择微调,确保“图”“文”上下一一对应。

8.选择“文件”中的“另存为”选项,再点击“PDF或XPS”格式(图5)。即得到双层PDF格式文件。

以上操作方法虽然步骤简便,但真正做起来却较为繁琐,尤其是第7项的“‘图‘文上下一一对应”。通过实践,笔者用一台

已使用5年的Avision AW6300扫描A4幅面1页dpi为200点的文件,仅需要6秒,但后期进行OCR转换、校对、图文对应排版等步骤却用了近3个小时,其工作量之大可见一斑。(当然,现在市场上有很多专业的双层PDF文件加工系统,使用起来会相对便捷。)

因此,笔者认为在接收电子档案时如果能够同时接收其“图”“文”两种格式,会给档案馆日后的工作带来巨大的便捷,接收电子文件格式的优先等级应为:“图”+“文”>“文”>“图”。

一、“图文并收”的注意事项

图文并收”即同时收集电子文件的“图”格式和“文”格式。需要注意的是,“文”格式应为定稿的文本格式(图6),“图”格式应为其对外公布文件的图片格式(图7),且两种格式的电子文件排版格式必须一一对应,可上下重叠,便于双层PDF的直接应用。

二、收集“文”格式的注意事项

收集“文”格式电子文件必须注意其易于更改的特点。下面,我们以WORD2007为例,介绍接收中便于保持电子文件原貌的具体步骤:

1.打开一个WORD文档1.doc。选择“审阅”、 “保护文档”选项(图8),再选择“限制格式和编辑”。

2.选择“仅允许在文档中进行此类编辑”和“不允许任何更改(只读)”后,点击“是,启动强制保护”(图9)。

3.输入密码,确定,存盘(图10)。

此时,文档已改为只读模式,可以避免误更改等现象发生。

三、收集“图”格式的注意事项

收集“图”格式电子文件的目的,一是直接用于利用,二是将“图”通过OCR转化成“文”后,通过“图文并存”,达到“图文并用”。但无论是哪一种用途,它都会受到扫描分辨率——DPI(每英寸的像素数)的影响。因此,在收集“图”格式时我们必须注意——OCR转换的正确率不以高分辨率做基础。

国家档案局在《纸质档案数字化技术规范》中指出“需要进行OCR汉字识别的档案,扫描分辨率建议选择≥200dpi”。部分档案部门在扫描电子档案时,往往要求扫描数据的高分辨率,个别有甚者竟然要求达到600dpi。这样做一是占用了过大的空间,二是扫描的“图”转化为“文”时,其识别率和正确率反而不是最佳。因此,笔者建议接收“图”文件时,必须根据具体情况对其DPI值进行规范,不求“最高”,只求“最佳”。

以下统计数据,是以Color Take 7730扫描仪为例,对同一段文本以不同的分辨率进行扫描,然后用蒙恬识别王1.60版本的OCR软件进行汉字识别所得到的。

通过上表,我们可以清楚看出,分辨率在50dpi~200dpi时,OCR的识别错误率呈递减趋势,但文件长度却翻倍扩大;分辨率≥200dpi后,识别错误率不稳定上升,但文件长度却以更高速度翻倍增长。“理想的OCR识别率和文件长度较小的扫描分辨率”是我们应该追求的目标。通过上述实验我们可以看出200dpi是这台机器的最佳分辨率。当然以上仅为个例,扫描分辨率还会受扫描仪新旧、功能设置、扫描对象情况等一系列具体因素影响。但可以明确的是,电子文件进行OCR转换时可以通过测试选择其最佳扫描分辨率,为“增量档案电子化”把好关口。

(作者单位:河南省焦作市档案局   来稿日期:2015-04-17)

猜你喜欢
图文双层文档
浅谈Matlab与Word文档的应用接口
画与理
有人一声不吭向你扔了个文档
墨尔本Fitzroy双层住宅
基于RI码计算的Word复制文档鉴别
次级通道在线辨识的双层隔振系统振动主动控制
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
传统Halbach列和双层Halbach列的比较
一种双层宽频微带天线的设计
图文配