基于配置管理与Lucene 全文检索的企业知识系统应用研究

2020-07-07 06:07赵慧杰魏永启姜进成
山东煤炭科技 2020年6期
关键词:资料库煤业文档

赵慧杰 魏永启 姜进成

(1.兖州煤业股份有限公司,山东 济宁 273500;2.兖矿集团有限公司信息化中心,山东 济宁 273500)

1 技术资料管理现状

1.1 矿企信息化程度不高

煤矿企业管理者没有掌握丰富的信息化理论,企业内缺乏先进的信息化设备,信息化设备的应用还停留在初级阶段。煤矿企业的办公室内并未实现人手一台电脑,资料的整理和存储多通过资料柜来实现,大量堆放的资料导致文件不方便查阅,加剧了企业的管理难度,各个煤矿的信息化建设严重受阻。

1.2 技术资料“孤岛”现象

在煤业公司日常管理中不难发现,下属煤矿企业各大部门尚未制定出科学的资料管理机制,在各项业务的开展中使用了不同的信息系统,由于衔接性不强以致于办公效率不高,且增加了整个煤矿的运营成本。

1.3 检索手段单一

在当前所创建与实施的文件系统中,检索指的是文件的名称。在检索的过程中一些制式文件的命名都会被批次量地检索出来,在实际的查阅过程中是极不方便的。尽管大部分系统都设置了检索要求,如创作者、建立的时间等,但是也无法从根本上提升检索的效率。

2 以LUCENE 技术实现企业文档全文检索技术

Lucene 并非是一个全文检索引擎,而是一个开放源代码的全文检索引擎工具包,是由Apache 软件基金会创建的子项目,具备索引和查询等功能。Lucene 提供的这个实用性较强的工具包,主要是便于目标系统发挥全文检索的功能。Lucene 所提供的应用程式接口,具有强大的搜寻功能。在开发Java的过程中,Lucene 这一工具的开源代码并不收费。

google,baidu 等搜索引擎所建立的索引库主要使用的是超链分析技术、关键词检索技术等,与煤矿生产标准相比这些技术并不达标。所以,要在结合上述技术的基础上,综合联系煤业公司的行业性质及文档中检索技术的使用状况,从而深入地研究联想、查找或拆分关键词的相关方法,最终实现公司内部检索技术的优化与升级。

2000 年,Doug Cutting 在结合Java 的基础上正式开发了Lucene 这种信息搜索库,其性能卓越,伸缩性强。

Lucene 以倒排表为参考依据,能够在较短的时间内快速地找到文本。在底层通过分段式存储,可让其在读写的过程中避免锁的产生,优化了读写的功能。

(1)Lucene 的底层存储格式

Lucene 的底层存储格式如下图1 所示,其是由两大部分构成,具体是:词典、倒排序。前者为Term 的集合,而后者则是词典中的 Term 指向的文档链表的集合。对于 Lucene 来说,这两大数据结构具有十分重要的作用,是实现高效检索的前提条件。

词典和倒排表的存储并非是一起的,而是分开进行。在倒排表中所存储的信息内容包括文件名、文件的位置等。

在词典中只要找到Term,Lucene 的查找就成功了一半,之后结合 Term 可得到文档链表,而按照查询要求操作链表,能够获得所需的内容。

图1 Lucene 的底层存储格式示意图

(2)Lucene 读写流程

图2 为Lucene 读写流程示意图,虚线箭头代表的是写索引的流程,实线箭头代表查询的流程。

图2 Lucene 读写流程示意图

3 基于配置管理与Lucene 全文检索的企业知识系统

(1)集中的文档存储

煤业公司为职员提供一个统一的文档存储库,以实现对文档的分类整理和备份。平台的文件管理系统还可以为其他业务系统的合并提供重要的支撑,同时还可统一管理煤业公司其他业务系统所产生的数据。

(2)灵活的技术文档修订与审批流程

在编辑好技术文档以后,需结合兖矿的管理制度要求来签收、审核与保存。文档需现在持有者发起会签,之后由相关人员来进行审批。文档管理系统可自动使用IM,以高效地展开具体业务。

(3)文档归档

在编写文档和修订文档的工作完成以后,煤业公司员工可结合相关要求或原则对其进行归档处理。文件归档即针对文档中的不同内容,如设计指标、正文的内容、记录的日志等都设置为合理有效的归档格式。该格式准许员工们查看文档的数据信息等。而在与其他档案管理系统完全对接后,各员工能够在自己的权限范围内对文档进行相关操作。

(4)方便的文档分类、浏览、查询

在统一的文档存储系统被成功创建之后,系统依照不同的要求或标准,如文档建立的时间、企业的框构、文件的种类等来详细具体地划分每个文档的类型。当煤业公司储存了丰富的文档之后,要想提升信息的质量与价值,最为关键的是如何能够让公司员工在最短的时间内找到所需的文件。平台可以让公司员工特别是对技术文档需求频繁的技术人员借助检索功能来搜索不同类型的文档,如:Office、PDF 等类别文档,可大大缩短文档搜索的时间,也可为公司员工带来良好的体验感。

(5)版本管理

在归档工作结束之前,每份文档都会被修订,每次修订完成后的文档都会覆盖住上一个文档。为了让公司员工看到上一次的修改内容,避免修改不当而带来不必要的损失,文档管理系统会将不同版本的文档内容进行自行保存。在员工对文档的内容予以修改时,系统会自动存储,而不是直接将原来的版本从电脑中删除,这主要是为了方便后期的查阅。

(6)文档权限保护(正式发布签入以后,询问权限,并将共享的范围明确出来)

煤业公司信息安全建设中,最关键的部分则为防范尚未通过授权的用户访问敏感内容。在文档管理系统中,赋予了对应操作权限的员工可对文档进行阅读、修改、审批、删除等,同时负责管理的技术人员借助预先设置的权限模板,能够为某文档在使用的过程中赋予对应的权限。除了避免尚未通过权限审核的员工阅读文档内容,对文档的保护还应进行的操作有禁止复印、修改等,除此以外,还可使文档具有阅读时间限制。

(7)锁定机制

在统一的文档存储中心保存企业的文档资料后,必然会出现在同一时间内不同员工对相同一篇文档进行编辑、修改等,而该种操作会带来的不良影响是:增加了文档丢失的风险性;极易损害文档内容的完整性。为了保证文档的质量,对于不同员工同时编辑同一篇文档的现象要进行有效的规避。若当前文档已经由某个技术人员在编辑,那么其他员工则不得进行其他方面的操作,此时其权限仅局限于文档的打开和阅读。

(8)完整的文档操作日志

煤业公司员工在操作文档资料的过程中,如查阅文档、修改资料、审核文档中的部分内容、删除没有价值的信息等,都需管理系统将操作的文档完整地记录下来。文档系统管理人员可随时查阅到所有文档的记录情况。

(9)全文检索

煤业公司内很多有利用价值的信息资源基本都被存储在不同的文档中,当然还有部分被放在之前建成的各信息化系统的数据库内,可以说该类资源体现了煤业公司的管理方式、财务运行状况及其商业策略等。为了使其得到最大程度的利用,则需进行科学、合理的管理,并在此基础上为公司构建成熟、先进的数据搜索系统,从而将存放在不同应用系统中的信息得到充分的挖掘与开发。借助该信息系统,文件的扫描工作可自行操作完成,之后便可对关键词进行拆分与检索结果的排列,有助于企业快速地查阅文件,提升整体的技术管理水平,避免了信息资源的浪费,降低了公司的运营成本,实现了多方系统的有效整合。检索系统在实际使用中应支持的功能具体归纳为以下几点:

① 关键字检索

在文本框内直接输入关键词即可检索到相应的文档。

② 自然语言检索

针对查询条件,用户以常用语进行概述,一句话、一个大的段落,搜索引擎检索后呈现出有关内容。

4 兖矿煤业公司各级技术资料库的应用

(1)共用资料库

可服务整个矿上的技术员,结合关键词进行检索,系统会为使用者匹配对应的文档。

(2)煤业公司级资料库

服务公司不同部门,可查阅内部的技术资料。

(3)煤矿级资料库

以矿为单位实现技术资料的共享,矿内不同机构或职员可翻阅。

(4)部门级资料库

按部门来实现资料共享。

(5)项目级资料库

可跨越不同的组织亦或是不同的技术专长来统一构建资料共享库,对于群里的成员,可交由负责人进行严格的监督与管理,在此基础上,为其明确地划分权限与职责。在整个项目的任务完成以后,可依照分类原则将其详细地划分,并归集到各部门的资料库中。如煤矿在设计作业流程的过程中,主管人员可在群组内添加其他专业的人员,且在明确划分不同任务的情况下本着相互合作的理念共同完成工作目标。

(6)个人资料库

技术人员可对自身的知识分类进行保护,同时可关注其他方面的内容。系统主要分两个端口,包括手机端和电脑端,为携带技术资料带来了诸多的便利,另外也有效地避免了资料的外泄。

5 结 语

Lucien 全文检索的企业知识信息系统在煤矿企业中与生产技术有效地衔接在一起,借助信息共享,提升整个技术管理水平,实现不同信息内容的全面共享。从2018 年1 月,煤矿企业正式将该系统投入到实际应用中,该年内部资料、科研成果、公共资料等分别为6870 条、807 条、604 条等,不仅减少了纸张的使用量,节约了资源与经营的成本,而且还提升了信息技术的创新水平。

猜你喜欢
资料库煤业文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
潞安化工集团司马煤业公司
潞安化工集团司马煤业公司
国家社科基金重大项目“‘古今字’资料库建设与相关专题研究”成果鉴定会顺利召开
实现科学教材中资料库的教育价值
Word文档 高效分合有高招
大学生自建口译资料库初探
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
出土文献数字化整理简述