基于油气地质知识的档案资料搜索系统设计

2021-01-03 04:17文|于
企业文化 2021年35期
关键词:知识库著录勘探

文|于 刚 刘 巍

(作者单位:中石油西南油气田分公司档案中心)

油气地质资料中富含了实践活动中获得的阶段性知识,尽快学习和掌握知识,无论对企业生产降本增效,还是科学研究创新,都极具价值。以油气勘探开发知识来扩展档案著录项,实现自动著录,用户通过搜索系统对著录信息进行组合检索,可以极大提高利用的维度和范围,使用户体验尽快得到改善。

一、地质资料档案的价值和利用的挑战

油气企业在勘探开发生产、经营、科研过程中,会形成大量的地质资料档案,忠实地大量记录了企业活动、人员行为和油气地质认识。经过长达数年甚至几十年真金白银的付出和积累,大量信息中富含了地质实践活动中获得的阶段性知识,尽快学习和掌握知识,无论对企业生产降本增效,还是科学研究创新,都极具价值。

传统以纸质档案为主的印象还在大家的记忆深入驻留。近十年来,国家对档案中电子文件的收集非常重视,油气地质档案中电子文件的数量已越来越齐全而庞大,而且通过历年来的数字化工作,老旧资料的数字化率亦非常高,如中国石油数字档案馆于2020 年6 月完成竣工验收,电子档案的时代已悄然来临。目前完全实现电子文件归档还有距离,但是油气资料纸电文件同时归档已是普遍行为,大量归档的电子文件,将会为档案利用产生新的机遇。

随着数据时代的到来,各类结构化和非结构化数据开始装载进各类数据库中,人们使用各种技术手段去提取信息,在信息中归纳知识,用知识创新促进经济生活增长,似乎档案的价值开始松动、弱化。档案的价值何在?这是一个问题,如果数据是一条大河川流不息,档案就是河岸边一座座堡垒,保存着某时段的有价值的数据记录集合。它既是客观数据,也是权威的主观认知,是当时社会、经济、科技的快照,守护着数据流向远方,以后不管河流泛滥还是干枯,你总可以回到你关注的那个点,复原当时真实的工作场景和思想认知。油田地质资料中深藏的真知灼见、实践经验,对地质研究、油气企业生产甚至国民经济发展,都有着非常重要的影响。这是一个挑战,又是一个机遇。档案的价值不可否认,我们按照国家、企业有关规定的要求,将油气地质资料收齐收全,保证资料权威性的前提下,按规定的格式和质量要求验收,立足自有基石。

新时代,机器计算能力的提升,人们看待数据的视角更广阔,处理手段更多样化,传统单一依靠著录项来检索资料的方式,已难以应对用户需求的深刻变化,那通向未来之门在哪儿?进入了一个数据化、信息化、智能化的时代,人们要求准确快速获取数据、信息、知识,而检索油气地质资料档案中相关内容能力,必须与之匹配。

我们的用户在哪?是些什么人?他们在想什么做什么,他们需要在档案中得到什么,面向用户,以获得良好体验的服务,才是我们新生之门。

从事油气勘探开发的研究和工程技术人员是档案借阅的最大用户群,他们的目标是油气地质和勘探开发技术。另一大群体是油气企业的管理人员,他们的目标是油气勘探开发的管理和经济,例如地质技术人员想获取在某个区域内所有油气勘探开发档案,又如地质技术人员想获取记录了某个区域内某个地层的油气勘探开发档案,又如工程技术人员想获取记录了某个区域内有油气显示的地层进行了试油气的油气勘探开发档案,又如管理人员要获取某个气藏的勘探过程的档案,还如要收集某级组织或每个人在一定时间段内的工作记录的档案,这些范围更广阔或者要求更细粒度的需求,确实是一个挑战。

二、通过利用油气地质知识扩展档案著录项

人工智能、知识学习、大数据、神经网络一个个炫目的名词不断闪耀在我们的视界中,档案在宏大的进程中有着不可替代的作用。由于花费巨大,目前一般单位很难实现全过程数据归档,档案只是这个进程中非常关键的一部分,这非常考验档案管理者的定力,在按规范收全收齐归档资料的基础上,快速将资料投放到用户的应用场景中,实现更高效档案利用才是当务之急。

长期以来,利用按类和著录项实现档案检索是行之有效的办法,从纸质目录检索到数据库检索,更快更准一直是我们的目标。目前国内各油气公司地质资料档案的著录项,除公共著录项,油气勘探开发档案专有著录项也定义不少,在《中国石油档案管理手册》(2020 版)中就定义了井号、井别、井型、地区、工作区域等五十多项,而且在中国石油档案系统中还可以自定义来扩展。在实际工作中,如果这么多项著录,工作量会徒然增加,而且专有项著录要查阅油气专业资料,归档人员还要具备一定专业知识,所以专用项几乎很难全面实际著录,更别用说扩展了。另外即使可以扩展著录项,也难以与用户的需求相匹配,如我们著录了完钻层位,但用户需要知道某个钻遇层位,或者需要知道有油气显示的层位,这种因人而异、千变万化的需求,我们传统的工作方式很难适应。

档案著录,就是将归档资料的特征标示出来,利于管理和应用。但著录项过多,归档人员和档案管理更倾向于利用自己工作的项目,手工著录,精力花费大而不灵活,不适应以满足用户良好体验为服务目标的趋势。

改善著录,让地质资料档案的独有和共性特征,能最大限度得到体现,独有的特征可以帮助用户及时找到个别资料,共性特征可以帮助用户找到有关联的资料集合,独有特征有些是单独的,更多是由多个特征共同表达出的,如张XX、XX 构造、XXXX 年、储量报告,就能让我们迅速找到由张XX 在XXXX 年参与编写的XX 构造的那本储量报告。

三、基于油气地质知识的档案资料搜索系统设计

首先要建立一套基本知识库,这个知识库由油气地质知识、油气钻完井技术知识和员工信息构成,油气地质知识包括井名、井别、井坐标、构造名、层位、岩性等,如层位,有以下字段:界、系统、统、组(阶)、段、亚段,而段还应有以下子字段(过去名称、现有名称),但在实际工作中,我们主要使用组(阶)、段来描述地层情况和油气发现,所以在层位我们只保留组(阶)、段的信息,如组(阶)有“蓬莱组、遂宁组、沙溪庙组、凉高山组、自流井组”等。由于历史上段名曾有不同命名,而自流井组的段有“过渡层、大安寨、马鞍山、东岳庙、珍珠冲”;由于历史上段名曾有不同命名,如“马鞍山”就曾名为“自三”,所以保留过程名称,有助于对历史资料的搜索,这些段不管是过去名称,还是现在名称,都有代表符号,但代表符号在资料中由于上下数标等原因,在资料中使用不同方式处理,也不利于搜索,所以我们可以暂时舍弃。油气钻完井技术包括钻头类型及尺寸、套管类型及尺寸、钻井液类型及密度、射孔方法及弹型;员工信息则有员工名、参加工作时间和现今状态(在岗、已退休、不在岗),可以看到我们主要是依靠确定性、单值信息来增加著录,改善利用体验,对于连续值数据项,我们暂不考虑。这里有一个误区我们需要澄清,以往通过著录,我们希望更准备找到单一的档案,但目前随着生产、研究在更大范围、更多纬度地对资料的需求,我们应该具备搜索一定范围内或一定条件资料集的能力,用户会根据自己的要求对结果集进行判断。另外,多条件的自然逻辑选择,也会极大降低我们的选择复杂度,如我们的人名,其实重名的非常多,但如果人名和资料中的地质信息结合,由于在地质资料上有名有姓的企业职工不会太多,重名的情况就会大为降低。

在完成了基本知识库以后,我们应将档案系统地质资料的基本信息迁移到我们的综合著录信息库中,基本信息包括资料题目、档案号、现有著录项等,然后用基本知识库的各字段来扩展综合著录信息库,这些知识库扩展过来的字段,初始都赋为空值。

目前很多档案系统都部署到了企业的云平台上,地质资料的电子文件已作为档案的附件上传到云平台中,这些电子文件作为被搜索的对象。完成基本知识库和综合著录信息库准备后,我们将编制一个自动著录引擎,其工作原理是这样的:将基本知识库的字段作为关键字,利用全文检索技术,在电子文件中进行搜索,如有匹配的,则将关键字存入对应文件的对应字段中,注意由档案系统迁移过来的著录项值已确定就不必进行搜索了。

基于油气地质知识的档案资料搜索系统,通过知识来扩展著录项,可以极大提高用户利用的维度和范围,使用户体验得到改善,在投入成本和开发时间上,是比较现实的选择,但随着技术的发展和用户要求更深入,这仅仅是开了一个头,如大家可以看到我们对不是固有的确定数值的已有知识,几乎都没有进行著录,如孔隙度著录,由于同一资料中不同地层有不同的值,既要在资料中读到孔隙度,又要与对应地层匹配上。目前实施的技术条件和硬件要求代价太大,当下我们采用以较小代价,选择尽快进行推广利用,改善用户体验的策略是符合实际的,从地质资料中语义识别出地质知识进行著录是我们的最终目标,我们会追踪技术发展,进行专题研究,在性价比可行的条件下,对系统进行迭代,在改善地质资料利用的路上,不断前行。

猜你喜欢
知识库著录勘探
油气勘探开发三年滚动计划编制的思考
著录格式执行GB/T7714-2015《参考文献著录规则》
著录格式执行GB/T7714-2015《参考文献著录规则》
常用参考文献著录要求
汉语近义词辨析知识库构建研究
本刊参考文献著录格式(2021版)
费县故城勘探报告
立秋
浅析测绘在煤矿勘探中的应用
机构知识库建设的动力研究