档案数字化成果进馆时需要注意的若干要点

2019-12-16 14:09浙江省档案馆
浙江档案 2019年9期
关键词:进馆数据包命名

林 空 黄 彦/浙江省档案馆

当前,我省各级各类档案馆正着手推进存量档案数字化工作。在接收档案数字化成果进馆的过程中笔者发现,档案数字化成果进馆(本文所指的“进馆”,特指档案的数字化成果进入数字档案馆系统)工作的规范性整体上有待加强。为提升工作的规范化程度、提高工作效率,档案数字化成果移交进馆时必须注意若干要点。

1 移交前需要注意的要点

1.1 遵照的标准

这里指的是档案数字化工作应遵循的标准。以浙江省为例,包括国家档案局2015年发布的《DAT_22-2015归档文件整理规则》、2017年发布的《DAT_31-2017纸质档案数字化规范》,浙江省档案局2007年发布的《浙江省省直单位纸质档案数字化实施细则》《浙江省档案馆纸质档案数字化成果接收暂行办法》,2011年发布的《浙江省省直单位文书档案目录数据库结构与交换格式》,2018年发布的《浙江省省直单位数字档案资源接收进馆与登记备份数据包技术要求》等。进馆单位或中介服务企业在移交数字化成果前,必须对照标准认真检查。

1.2 档号的命名

《归档文件整理规则》规定,档号的结构宜为:全宗号-档案门类代码·年度-保管期限-机构(问题)代码-件号,上、下位代码之间用-连接,同一级代码之间用·隔开。如“Z109-WS·2011-Y-BGS-0001”,其中“·”为间隔号在制表键(Tab)上方,在中文输入法状态下打出;保管期限分为永久、定期30 年、定期10 年,分别以代码“Y”“D30”“D10”标识;机构(问题)代码采用3位汉语拼音字母或阿拉伯数字标识;归档文件未按照机构(问题)分类的,应省略机构(问题)代码。需要特别注意的是,如档案是2015年之前整理、档号命名按照《浙江省省直单位文书档案目录数据库结构与交换格式》拟制的,其组织机构或问题用2位字母标识,可以用简称中的汉语拼音第一个字母表示;如无该项内容,则用“ZZ”表示。

1.3 图像的格式

《纸质档案数字化规范》规定,纸质档案数字图像长期保存格式宜为TIFF、JPEG或JPEG2000等通用格式;《浙江省省直单位数字档案资源接收进馆与登记备份数据包技术要求》规定,移交的数字化成果应包含单页TIF原图与多页PDF。在上述两份文件中出现的TIF与TIFF本质上为同一概念,都是指标签图像文件格式(Tag Image File Format, TIFF),只是曾经DOS下扩展名长度限制为3(文件名长度限制为8,所谓8.3格式文件名),所以才出现了TIF这样的简称,因此对这两种后缀名的文件都应予以支持。

1.4 数据包的命名

《浙江省省直单位数字档案资源接收进馆与登记备份数据包技术要求》规定,传统组卷方式档案数字化成果数据包命名规则为:全宗号-目录号-数据类型-报送年度-批次号-数据包流水号.zip。一文一件方式档案数字化成果数据包命名规则为:全宗号-一文一件方式(YWYJ)-数据类型(001)-报送年度-批次号-数据包流水号.zip。专业档案等数字化成果数据包命名规则为:省档案馆已赋予目录号的,按照目录号方式(传统组卷)编制档案数据包;省档案馆未赋予目录号的,可在全宗号下自行编制不重复的4位拼音首字母组成的专业档案分类号;也可以按年编制,即全宗号-专业档案-年度(档案产生年度)-案卷号-张页(件)号。

1.5 压缩格式选择

Windows系统中主流的几种压缩文件格式为ZIP、RAR、7Z、CAB等,根据《浙江省省直单位数字档案资源接收进馆与登记备份数据包技术要求》规定,我们推荐采用ZIP格式进行压缩。

2 接收后检查时需要注意的要点

2.1《档案数据交接文据》填写的规范性检查

《档案交接文据》是在变更档案保管者或所有者的过程中形成的具有法律效力的文件。浙江省档案馆根据实体档案与数字化成果的差异重新编制了《档案数据交接文据》,要求在实际操作过程中务必注意“四个分开”,即带密级与不带密级的数据分开填写、交接文据应以批次为单位分开填写、只移交目录与目录含全文的数据应分开填写并注明、已登记备份的数据与未登记备份的数据应分开填写并注明。另外还要严格检查“移交清单名称”一栏填写是否规范。

2.2 目录字段命名的规范性检查

移交的数字化成果的条目字段命名往往不规范,存在以下问题:一是“题名”字段命名错误,《案卷级目录数据库结构一览表》(下称表1)中该字段为“题名(或TM)”,而《文件级目录数据库结构Ⅰ一览表》(下称表2)与《文件级目录数据库结构Ⅱ一览表》(下称表3)中该字段为“正题名(或ZTM)”;二是“文件起始时间(或WQS)”字段与“文件终止时间(或WZS)”字段的长度应为6个字节,精确到年月即可,但长度设置为8个字节的情况较为常见;三是表1中所设置的必选著录项,每一项都有提示本卷档案性质的功能,不可为空,但为空的情况较为常见;四是表1与表2中“馆编案卷号(或GBAJH)”字段为相应的档案馆编制的案卷排列的顺序号,移交单位不应进行该字段的著录,而进行著录的情况较为常见;五是表2与表3中的“全文标识(或QWBS)”字段关系到能否访问全文,所以应作为必选著录项,但很多时候没有成为必选著录项。档案馆在接收时必须严格检查是否存在以上这些问题。

2.3 扫描图像的规范性检查

该项检查依托软件进行,主要检查TIF原图是否损坏、TIF原图的分辨率是否符合规范、是否为双层PDF文件等,并且对照DBF文件检查TIF文件夹(或PDF文件)命名是否与档号一致,TIF文件夹内单页TIF文件命名是否从00000001.tif起。

2.4 打包格式及命名的规范性检查

《浙江省省直单位数字档案资源接收进馆与登记备份数据包技术要求》规定,所移交的数据资源应分为四个层级:第一层级为存储介质底层也可为文件夹,如为文件夹建议与第二层级的移交清单同名;第二层级包含移交清单与若干ZIP压缩包;第三层级为包内文件包含若干DBF文件、若干文件夹及与文件夹数量相同的PDF文件;第四层级为以流水号命名的单页TIF文件。接收数字档案资源数据包时,应根据上述要求开展严格检查。

2.5 数据密级的检查

在纸质档案数字化加工过程中,非密数据与密级数据必须分开处理。首先在条目字段表的“题名”或“正题名”字段筛选带“密”字的项,人工识别确定是否为密级数据;其次使用软件OCR识别技术对所有TIF原图进行全检,自动筛查带“密”字样的原图;最后人工抽检部分原图,确保非密数据与密级数据分开管理。

3 进馆后整理时需要注意的要点

3.1 档案类型的匹配

档案数据包的来源及档案类型等在移交清单中记载的信息,会在出库时随数据包一并输入数字档案馆系统。解包成功的数据包需手动匹配档案类型,若匹配成功,根据对应的档案类型库中预设的类型名称,选择准确对应的门类,完成档案类型修改;若匹配失败,则需根据数据来源的实际情况和数字档案馆系统支持的类型来增加分类;若部分专业档案存在需自行编制分类的情况,则要按自身实际情况新增对应分类。

3.2 字段结构的匹配

若进馆单位的数据字段结构均按照《浙江省省直单位文书档案目录数据库结构与交换格式》的规范著录,数据源字段即可自动与可选的目标库字段绑定匹配;若匹配不完整则需人工进行干预,针对可选数据源字段的实际情况进行灵活匹配。针对专业档案的特点,移交单位在提交数据时,必须同时提供完整且准确的专业档案字段结构表。

3.3 数据的复检

复检的主要手段包括为空检测、重复检测、连续检测等,其中为空检测主要用于检测档号、题名、责任者等关键字段;重复检测用于查找重复数据,支持跨档案类型和跨库双重检测;连续检测用于检查目录号、案卷号等有连续编号需求的模块。复检工作完成后,档案数字化成果资源即可作为合格数据保存在数字档案馆系统中,提供利用。

猜你喜欢
进馆数据包命名
关于开展铁路建设项目档案进馆工作的思考
二维隐蔽时间信道构建的研究*
红河州对脱贫攻坚档案接收工作提出工作要求
命名——助力有机化学的学习
民用飞机飞行模拟机数据包试飞任务优化结合方法研究
潍坊市部署新一轮档案移交进馆工作
C#串口高效可靠的接收方案设计
军工产品档案进馆研究
有一种男人以“暖”命名
为一条河命名——在白河源