档案信息检索技术探析

2017-05-30 10:46马木生

科技风 2017年13期

马木生

摘要：信息技术为人们的生活带来了巨大的改变，随着社会信息化程度的加深，各个行业、各个领域逐渐涉及到信息技术，逐渐开始重视对信息的处理与审视。信息管理与审视的主要手段是利用信息管理系统进行操作，目前在社会各个领域中备受关注。其中尤其档案信息管理是目前比较常用的信息管理系统，而且档案信息管理技术对于机关、企业等领域来说非常重要，有着独特的属性，如何提高档案信息管理的效率，笔者认为要从档案信息检索技术入手，提高档案信息检索技术的有效性将会是档案信息管理工作现阶段以及未来必须重视的课题。

关键词：档案信息；检索技术；档案管理

随着时代的进步，科学技术日益完善，信息技术的发展与更新未来传统档案管理带来了新的挑战，經过很多年的累积、收集、整理档案数量十分庞大，而且目前对档案利用的方式却发生很大的变化。从传统的档案管理来看，主要是以手工信息检索的为主，在检索之前需要制作带有目录的条目卡片，让后续使用更加方便。随着时代的发展，机械式信息检索随之出现，主要是设备上的进步，采用了打孔机、分类机等等设备，能够对二次文献进行更好的记录与收集，而且可以通过电刷进行更加有效率的检索。每一次对检索方式进行改善都是一次进步。在信息技术的支持下，这些传统方式都无法满足现代档案信息管理与使用的要求，对设备依赖大，而且非常复杂，并且检索效率与检索质量都不高。因此，档案信息检索技术在这样的背景之下产生，利用计算机能够提高档案检索的效率与质量。目前，为了提高对档案的使用率，广大研究者逐步开发了档案管理系统，为了达到实现档案信息共享还建立了档案数字化馆，不仅实现了实现了档案信息化检索的目标，而且扩大了检索的范围，质量更高，能够满足广大人群事实检索的要求。可以说，档案信息检索技术的推出，让档案信息再次“活”起来。

一、档案信息检索技术的发展

信息化的发展带来新的技术、新的文化以及新的交际方式。信息技术在档案管理的应用中得到了前所未有的发展，但是从目前发展的现状来看，还有很多地方需要进行改善。目前，档案管理系统开发了档案信息检索功能，广大用户可以通过档案信息检索系统进行目标查询，用户一般在查询档案信息时采用的是关键字模糊查询，而相关查询结果则是事先经过录入做好顺利排列之后进行输出的，虽然具备检索的功能，但是其检索结果并没有像预期一样达到用户真正需要的检索意图，甚至没有对查询中一些关键因素进行深入的分析，比如，关于关键词出现的频率，关键词出现的位置以及关键词的重要程度等等，因此，很多时候检索结果都是无序状态，甚至和用户想要查询的结果没有存在基本的关联性，最终无法并没有真正满足到客户的实际需求。类似这样的档案信息检索结果并没有真正的意义，尤其是从广大用户的角度来看，这样的检索不仅浪费时间，而且整个检索过程异常乏味，而且大部分用户不可能去一一查看结果。因此，针对目前的档案信息检索存在的一些普遍问题，本文的研究主要是基于原来的基础上进行改进，主要是针对目前默认的查询结果进行改善，让查询结果排序更加人性化，以相关度为依据从高到底来进行显示，这样能够让用户在极短的时间内检索到自己想要的信息。

档案的价值最终体现在“用”这个环节上，如果档案一直被存放在库房而没有被使用，档案也就失去了原有的价值，更是一张张等着发霉的废纸。如何针对档案信息化系统进行改进，如何做好档案信息检索，如何才能在庞大的档案信息中准确找到自己的想要的信息，这才是我们必须要关注并且解决的问题。随着信息技术的发展，数字化档案建设之后浏览的人数与日俱增。而且不同的人有自己不同的思维模式，就大部分人来说他们对档案的记忆都是非常模糊的、片段的，本身自己的查询意图就不明确，在查询时一开始都是以试探的方式进行。如何满足这些用户的实际需求，如何让用户能够准毫无遗留的找到档案信息，这就要档案信息管理系统必须具备一套非常强大并且人性化的检索功能，让广大客户能够根据检索具备的基础条件进行更好的查询，这样查询结果将会更加准确、更加效率。目前，能够满足不同的用户不同需求的检索功能，主要包括了全文检索、图片检索、目录检索等。

二、档案信息检索技术

（一）信息检索的原理

所谓信息检索是一般是根据某种方式将各种信息进行重新组织，然后根据用户的查询需求将对应的信息反映给用户的一个过程。档案信息检索包括了：索引检索、查询处理、文档检索几个方面。

第一，索引生成。设计档案信息检索系统时必然会涉及到索引生成，那么如何选择索引与如何选择索引方法以及关键词表分词方法都显得非常重要。索引生成会涉及到EM算法、NGram算法、HMM算法等，它们都是统计学原理当中的分词方法，但是这种计算方法使用的范围比较小，而且工作量也很大。

第二，查询处理。档案信息在具体检索的过程中，用户在使用的过程汇提出查询条件，比如：关键词、自然语言、表达式等等，而且整个档案信息检索功能对于用户输入的查询条件不能肆意更改。例如，档案信息检索系统如果没有对用户给出的查询条件进行及时的处理，这样便会影响查询的准确率。因此，根据用户的查询条件一般要做好语义处理，这样才能准确领悟到用户想要表达的一切查询意图，通常使用的处理方法有关联矩阵、相关反馈、潜语义分析等等技术。

第三，检索。检索系统直观理解就是对关键词进行查询的处理方式，给用户及时提供查询出来的结果。检索系统的工作程序比较简单，通常可以利用对应的模型来对查询结果的关联性进行排列，主要的方式有：概率模型、布尔模型以及向量模型。

（二）检索的相关性

第一，系统相关性。系统相关性是查询结果与提出文档之间的匹配关系，在具体操作中会受到用户的个人习惯操作习惯的影响，文档的特征与实际操作包含了：语法表述、分类表、索引、文献组织、分析检索提问等等。系统相关性从本质属性上来分析是比较片面的，通常是将重心放在整个查询过程的系统的当中，这样就会忽略了用户的实际感受。

第二，用户相关性，是用户发出的查询结果与信息需求之间的匹配关系。目前，档案信息检索过程涉及到的数据量也非常巨大的，此时用户的实际操作将会影响到整个信息检索过程。而且需要考虑到用户在实际查询过程中一个心理变化过程，因此，要将用户相关性与档案信息检索的相关性充分结合起来，经过对比分析之后，得知前者更加能够提高检索结果的准确率。

三、档案信息模糊检索

早在1956年，美国著名的自动控制专家、加州大学著名教授扎德第一次将模糊集合理论提出来，最开始是为了解决一些模糊不清的问题，目的是通过模糊集合理论将这些模糊繁杂的问题集中化、明确化。随着时代的发展，模糊集合理论被引用到信息领域当中，并且有了很快的发展，目前在档案信息检索中有属于一种非常常用的信息处理方式。档案信息模糊检索主要在检索的过程中针对字符串或者文件中一些相关部分将其作为关键词进行检索的一种方法，例如，如果检索的内容特别多，那么用户只需要记住想要查询内容的一部分作为关键词就可以进行信息检索，从而提高检索系统的可用性。

目前，很多系统的所有数据都提供了模糊检索功能，例如，SQL Server 数据库，针对这两个数据库进行模糊检索的时，要通过like关键字对定义检索类型进行约束从而形成模糊检索，同时还需要使用通配符号来进行模糊定义，例如：SELECT Field Name List FROM Table Name List WHERE Condition LIKE“aa<通配符>”，表示从表 Table Name List 中检索关键字是“aa<通配符>”的 Field Name List 字段。针对查询条件来看，通配符有这些表达形式：

第一，%，也就是代表多个任意字符；

第二，_，代表长度为1的单个任意字符；

第三，[]，指定[]中某个对应的字符；

第四，[^]，主要是指一种差值上的操作，可以理解为除[]之外的单个字符。

档案信息模糊检索与精确检索对比起来，模糊检索在结果范围上会更大，从而有效的提高了查全率。模糊检索在软件上的配置能够提高软件的实用性。基于模糊查询的实现原理来看，模糊检索的优点主要有这些：

第一，方便。模糊检索可以说为一些非专业领域的用户提供了很大的便利，在模糊检索的引导下更加容易理解与操作，用户不需要掌握专业技术、专业内容、专业规章，就可以直接通过软件或者系统提供的模糊检索功能通过关键词开始进行检索。

第二，易用。模糊检索一般采用的语言是常用的自然语言，这与受控语言有很大的区别，自然语言有一个非常大的优势便是非常符合用户平常的检索系统，有了模糊检索的这项功能，用户在使用检索功能时就不需要对关键词进行概念转化。通常自然语言具有比较丰富的标引检索入口词，因此可以提高检全率，从而为广大用户提供更加便利的服务，由于其实际操作非常简单，适合的人群就比较广泛。

第三，启发。模糊检索的范围很广，但是经常获得冗余结果，这样也不会影响到用户的检索需求，例如，查询结果集非常大，用户则可以根据当前结合的启发，再从里面选取需要查询的关键字，从而实现更加准确的检索。

四、档案著录与档案标引分析

档案著录与档案标引是档案信息检索系统的基础。档案著录主要从整个档案信息中提炼出符合用户查询要求的索引信息，将其完整收录下来，并且针对档案内容的主题进行分析，從而判断出该档案信息是否符合用户查询的要求。在经过概念转换之后能够让检索语言的整个过程更加规范化，然后再利用档案标引能够将档案信息中与一些文本信息不同之处揭示出来，这个过程有着比较显著的特点：

第一，目前，大部分档案所收集、记录、归档的信息是属于原始类信息，一般要更改原始类信息的可能性还是非常低的；

第二，档案信息内容涉及面非常广，但是分类非常明晰；

第三，无论什么类型的档案信息必须要符合专业标准，例如，要具备一级目录、二级目录、三级目录等等，并且还要具有文号信息、实体分类号、全宗号、案卷号以及文件号。

第四，档案信息要具备可以准确、快速被识别的特点，也就是每一个档案信息都必须要有对应的档案编号，编号是独一无二的。

第五，档案信息密级划分一般是5个级别，每一个级别所包含的授权信息内容与权限都不一样，不能混淆。

第六，档案信息的保管期限划分为3种，过期的档案要及时销毁。

第七，关于档案信息的必要追究责任。档案信息本身要具备非常明确的归档单位，要有对应的负责人，如果档案信息出现删除、篡改、泄漏等等情况，要对其追究法律责任。

五、结果统计排序方法分析

档案信息检索的最终目的是将检索的结果及时反馈给用户，但是由于现在的档案信息量特别大，导致信息检索的结果数量也非常大，一般用户是不会将检索结果一一全部浏览完，而且这本身也不符合档案信息检索开发的便利性原则。目前，档案信息检索主要采用的是模糊检索，而模糊检索一般情况下无法有效避免出现繁杂结果的问题，而繁杂的结果必然会影响到用户对检索结果的阅览性。因此，需要一个良好的结果统计排序机制，有效控制繁杂结果的出现，为广大用户提供更好的服务。从档案信息检索结果来看，结果之间地位肯定不会是对等的。根据结果是否能够满足用户检索的预期目标，一般将检索结果划分为目标结果与冗余结果，当然用户在对档案信息进行检索时肯定希望能够得到满意的结果，通常只会关注检索结果的最靠前的几条记录。由此可见，对档案信息检索结果的排序就显得非常重要，而且良好的排序也直接影响到用户的使用体验。排序无疑是检索的最为关键的一步，假如没有进行合理的排序，那么档案信息检索出来的结果必将失去价值。检索排序是基础性工作，也就是检索的必经步骤。而检索技术是对信息有效过滤最为有效的方法，通过检索才能获得高质量的信息。

综上所述，档案信息检索技术要从检索的基本原理入手，对检索的过程相关性分析，尤其是要了解检索相关性与用户相关性。另外，模糊检索是当前档案信息检索最为有效的检索功能，虽然无可避免模糊检索过程中会带来目标结果与冗余结果，但只要从这方面深入研究，结合档案信息的特殊性，从而对结果统计进行合理的排序，提高档案信息的利用率。

参考文献：

[1]赵进龙，霍明明.RFID技术在档案信息检索中的应用研究[J].电子世界，2016，（14）：53.

[2]孙梅霞.新形势下档案信息公共服务方式研究[J].兰台世界，2015，（23）：105106.

[3]方婷.信息技术在档案中的应用[J].东方企业文化，2015，（02）：66+68.

[4]于雪红.数字档案信息安全防护对策分析[J].黑龙江史志，2014，（09）：160.

[5]刘华珍.档案信息检索研究成果的统计分析[D].辽宁大学，2014.

[6]赵春苗.计算机技术在档案信息管理中的应用[J].科技创新与应用，2014，（07）：250.