浅谈XML语言在档案管理中的应用

2021-04-14 21:46
卷宗 2021年3期
关键词:著录代码文档

王 瑜

(中国电建集团北京勘测设计研究院有限公司,北京 100024)

XML 语言诞生于1998年,其设计的最初目的是实现EDI(Electronic Date Interchange电子数据交换),为电子数据交换提供一个统一的标准数据格式。XML语言是一种用于描述数据的标记语言,它不提供固定的标记,而是允许用户自定义数量不限的标记来描述数据,且允许使用嵌套的信息架构,是一种良好的直接处理数据的通用方法。XML具有良好的可读性、可维护性,便于信息检索,便于信息的长期保存,可以轻松的跨平台应用,符合《DA/T 47-2009板式电子文件长期保存格式需求》中格式开放、不绑定软硬件的要求,这也是它被广泛应用在档案管理中的原因。国家档案局发布的行业标准《DT/ 48-2009基于XML的电子文件封装规范》就基于XML语言对档案元数据的数据格式进行了约定。

1 XML语言在档案管理中存在的问题

1.1 XML格式复杂

就XML本身特点而言,XML文件庞大,文件格式复杂,传输带宽。服务器和客户端都需要花费大量代码来解析XML,XML的解析需要考虑父节点和子节点,让人头晕眼花,导致服务器和客户代码变得异常复杂且不易维护。客户端不同浏览器之间解析XML的方式不一致需要重复编写很多代码,客户端和服务解析XML花费较多的资源和时间。

1.2 著录时仍需人工完成

XML数据著录时仍然需要人工完成,著录完毕将经历多次自动查验,但所查验内容多是对档案的真实性、可靠性、可用性和安全性进行校验,对于著录中的错别字或录入顺序颠倒等问题无法查验,接收进档案系统的XML数据在后期整编审核过程中存在错误,主要是由于著录人员信息内容错误,或将信息填错位置。XML数据虽然后续经过多次人工检验,但在后期工作仍会在不同的阶段发现问题。因此前期著录过程的准确率至关重要。

2 改进建议

2.1 技术需要改善

首先是要规范XML格式书写,让代码描述自己,保证恰当缩进,让代码更加容易理解。增加注释,注释做到简单直接,同时避免不必要的注释。其次是按照实际需求,选择适合的解析方式,XML常用解析方式有四种,分别是DOM(Document Object Model)解析、SAX(Simple API for XML)解析、DOM4J(Document Object Model for Java)解析和JDOM(Java-based Document Object Model)解析。各种解析器各有优缺点,DOM的优点是允许应用程序对数据和结构做出更改,可以在任何时候在树中上下导航,获取和操作任意部分的数据。缺点是需要加载整个XML文档来构造层次结构,消耗资源大。SAX的优点是不需要等待所有数据都被处理,分析就能立即开始、只在读取数据时检查数据,不需要保存在内存中、可以在某个条件得到满足时停止解析,不必解析整个文档、效率和性能较高,能解析大于系统内存的文档。缺点是需要应用程序自己负责TAG的处理逻辑(例如维护父/子关系等),使用麻烦、单向导航,很难同时访问同一文档的不同部分数据。DOM4J的优点是大量使用了Java集合类,方便Java开发人员,同时提供一些提高性能的替代方法,并且有很好的性能,缺点是大量使用了接口,API较为复杂。JDON的优点是使用具体类而不是接口,简化了DOM的API,缺点是没有教较好的灵活性。开发人员可以根据档案系统的实际情况去选择适合的解析方法。

2.2 著录时的改善

目前OCR图像文字识别、语音识别、职能检索等功能均比较适合辅助前期的著录工作,这些如果能与著录软件结合会大幅提高XML数据库的准确率,这样不仅可以筛查格式问题,还可自动纠错出人工著录过程中存在的常识问题,如错别字、著录顺序颠倒、信息填错位置等问题。如能在前期著录过程中提高准确率,在进入档案室后的一系列人工核查中进行查漏补缺,会使得档案著录数据更加准确。

目前很多部门在办事过程中已经直接形成电子文件,所以在移交档案时要将电子文件打印成纸质文件再向档案馆移交。如能在前期从各部门的各种业务系统中抓取数据与著录系统导出的XML数据相结合,会缓解后期加工制作的压力,大幅度地缩减加工周期,抓取的信息相对数字化扫描成果更加清晰易读取,可以在最短的时间内对外提供档案利用服务。同时各部门形成的电子文件为原生的电子文件,更符合档案接收标准。

3 结束语

当今的时代是一个信息爆炸的时代,互联网技术风云千樯,每一种技术都有可能给我们现有的管理模式带来新的成长。XML不过是互联网技术千万应用的一个小创新而已,希望它可以在旷日积晷的历史长河中闪烁微光,帮助我们更好的管理档案。

猜你喜欢
著录代码文档
常用参考文献著录要求
常用参考文献著录要求
浅谈Matlab与Word文档的应用接口
常用参考文献著录要求
有人一声不吭向你扔了个文档
创世代码
创世代码
创世代码
创世代码
基于RI码计算的Word复制文档鉴别