基于Hubble.Net的加密文档检索系统

2017-07-15 14:12凌晔华庞抗张晓洁郑鑫
智能计算机与应用 2017年3期

凌晔华 庞抗 张晓洁 郑鑫

摘要:针对当前企业对文档保密与检索功能的双重需求,提出一种添加模糊匹配Hubble.Net保密文档专用检索阅读方法。采用AES(Advanced Encryption Standard)加密算法对将加密文档提取的流信息流进行加密,使用Hubble.Net与对加密文档进行检索时,而模糊匹配算法的使用大大增加了字符比对的容错性,在保证文档加密的同时兼顾了文档位置定位、关键字定位等文档检索功能。在检索速度及精度方面,要优于现有的方法。

关键词:文档检索;Hubble.Net;模糊匹配:AES加密

0引言

在时下的信息时代背景下,大部分科技企业的文档数量正在急剧增加,因此对于文档的检索与保密势必关涉到公司的整体权益与未来走势,如何能够高效全面地控制管理各类包含秘密信息的文档则已显得尤为重要。当前企业采取了形式多样的文档保密措施,如通过规章制度的管理方式,或者指定PC机来存储保密文档、限制PC机联网、去掉与外部设备连接的接口等。分析可知,這些措施都存在着重大的安全隐患,而且更使得当前文档的检索和阅读也变得较为复杂繁琐。

针对上述问题的研究进展,已经陆续涌现了一定成果。其中,文献改进了基于简单关键词匹配的算法,就是通过对用户提供的关键词进行匹配检索,但却缺乏一定的容错性能,如用户在使用前并未能掌握检索结果相近的关键词,获得的检索结果也将与用户的预期相差甚远。文献即在匹配检索的基础上加入了语义的提取与分析,由此则可提升检索信息的价值,但是由于检索之前还需对语义进行提取,因此效率上随即出现了下降倾向,而且在数据量较大的情况下将不再适于选择使用。另外,文献还设计了一种在检索中进行词型检索算法,虽然提高了查询的效率,但是会出现明显的多查现象,需要用户展开二次甄别,影响了用户体验。因此亟待进一步的发展完善。

针对上述研究及企业当前对于文档的保密与检索的双重需求,本文提出采用AES加密方法对文档进行加密,将文档的章节位置信息当作检索关键字写入数据库,使用Hubble.Net检索的基础上添加模糊匹配对加密文件进行检索,这种采用模糊匹配与AES加密的Hubble.Net文档检索系统在保证了文档的保密前提下,兼顾了保密文档的检索与使用效率。本次设计中,加密文档检索系统结构如图1所示。

1检索算法

Hubble.Net是一个基于.net framework的开源全文搜索数据库项目。全文搜索数据库系统与普通关系数据库系统的区别就在于,前者可以让使用者对文档快速实现文本信息的全文搜索,同时也设置了对数据库中字段的逻辑查询。目前的一些主流数据库都提供了全文搜索功能,但其全文搜索功能却相对较弱,无法真正满足实际应用需要。而一些全文搜索组件,比如著名的Lucene,只是具备了全文搜索功能,而缺乏和关系数据库的关联。Hubble.Net是一款集合全文搜索和关系查询于一体的新型数据库系统,用户可以方便地通过SQL语句对数据库定制选择全文搜索、关系查询、甚至全文+关系的查询。Hubble.Net供给开放的数据库适配器接口,可以和各类数据库完美拓展对接,为各类数据库体系附加全文检索和数据发掘功能。Hubble.Net设计了较为高端的并发技术机制,数据的增删改查可以多线程、同时也没有任何冲突地并发推进与处理。Hubble.Net还给出了缓存和内存管理设计,可以使用户最大限度地发挥查询的作用与效力。