基于特征库的测井数据格式自动识别与转换方法

2014-12-03 10:31王慧萍王卫杨頔何宗斌李晓华
测井技术 2014年1期
关键词:数据格式数据文件自动识别

王慧萍,王卫,杨頔,何宗斌,李晓华

(1.中石化河南石油勘探局地球物理测井公司,河南 南阳473132;2.中石化石油工程技术研究院测录井所,北京100101;3.武汉大学,湖北 武汉430072;4.长江大学,湖北 武汉430100)

0 引 言

测井数据种类繁多,存储格式多种多样,尤其是野外测井数据,不同的仪器厂商、不同的测井数据处理平台都有不同的数据存储格式,如LIS、DLIS、XTF、WIS、各种版本的 LAS、各种类型的716等[1]。据统计,国内外现有测井数据存储格式多达100多种。随着测井技术的发展,测井项目增多,数据类型会越来越多,迫切需要一套能够快速、高效、智能数据格式识别、浏览、解编的新方法。本文提出了一种基于特征库的测井数据格式自动识别与转换方法,具有很好的应用前景。

1 现有数据格式技术状况

目前测井资料处理系统的数据转换大都采用人工识别方式或半智能化模糊识别方式。

所谓人工识别方式,要求确切知道要转换的数据文件类型,调用相应的转换模块,这种转换方式速度快,效率高,缺点是处理人员必须对该数据格式类型十分清楚,否则就无法实现转换。

半智能化模糊识别方式则要求用户知道要转换的数据文件的可能类型,并指定相应的可能转换模块。这种转换方式给出一种或多种可能的数据格式,让程序在给定的格式中自动搜索、匹配,但必须保证要处理的数据格式属于给定的可能格式中的一种,且给定的可能性越多,处理速度越慢,因为系统要对给定的模块逐个进行扫描、匹配。同时要求多选的格式模块必须对格式的描述判断严谨、唯一,否则将会引起混乱,无法实现正确解编。这种识别技术最大的问题是随着模块的增加,文件数据格式的相似性增加,识别准确度降低,模块间的混淆严重,无法准确区分数据格式,造成系统运行不稳定,甚至崩溃[2]。

2 测井数据格式自动识别与转换方法

2.1 技术思路

分析各种数据格式的信息特征,提取其中的一条或多条具有代表性的特征信息,根据特征信息在文件中出现的位置特点,选择设置定点、段内或偏移搜索方式,采用多条件识别方法建立数据格式特征码库,通过软件自动实现识别数据格式特征库技术,将某一个待操作的数据文件与特征库信息进行匹配,从而快速识别出该数据文件的数据格式类型,然后再调用相匹配的数据格式转换模块进行扫描、转换。概括地说就是,利用能够区分各种测井数据格式的特征信息,建立数据格式特征码库,编制计算机软件,实现自动格式识别、转换[2-3]。

2.2 数据格式特征库设计

数据格式的特征库设计依据测井文件格式内部信息对文件类型进行区分,即通过分析各种数据格式的结构特征,提取各种测井数据格式中的特征信息,建立数据格式特征码信息库。

特征库文件格式:

信息描述:搜索的操作数信息描述。

搜索域:设置搜索方式,进行定点、段内和偏移搜索3种方式选择设置,根据所需搜索的特征数在定点位置或在搜索段内或在某特征定点偏移位置设置,0为全范围搜索;1为定位搜索;2在上一个特征信息搜索的基础上,加偏移定位搜索。

起始点,终止点:某特征的位置范围。对于定点搜索,则从起始点直接对应匹配操作数;对于段内搜索,则在起始点,终止点任意位置匹配操作数即可;对于偏移搜索,该起始点为偏移点,实际搜索位置要加上最新搜索的一个定点位置,该定点位置是通过段内搜索得到,即:

匹配操作点=上一项段内搜索的匹配操作点+起始点

值类型:操作数的数据类型,可为字符、整型、实型多种操作数特征,操作数的数据类型要考虑操作数的机器类型,如I4为PC机整型数,I4S为SUN机器整型数

最小值,最大值:操作数的最小值与最大值范围,对于字符型操作数,最大值可以是多个条件值的或,如:最小值、最大值为“H T.OR.C”表示操作数等于H或T或C时,均满足搜索条件;对于数值型操作数,给出的是匹配数值区间。

表1为部分格式的特征信息。例如:DLIS是段内搜索文件头、来历2个特征字FILE-HEADE与ORIGIN。XTF是定点搜索特征字.XTF及2个定点特征数值1与2。BIT是先在段内搜索特征字T,得到定点位置再加各偏移起始点位置处搜索文件号、曲线条数、采样间隔、日期、月份等多种类型的操作数。多种类型的操作数匹配,是为了更准确找到某种格式特征。

特征库的建立力争作到信息描述的简洁性、准确性与唯一性,保证格式识别的快速、准确。特征库支持新的识别条件加入,支持未来扩展。数据格式特征码库的建立,是为计算机自动、快速、准确的识别数据格式类型提供判别标准,以便于数据格式识别与转换。

表1 特征码库文件示例

2.3 技术实现

2.3.1 建立数据格式特征信息库

通过对目前国内外常用的几十种数据格式记录标准及特征进行分析、研究,提取各格式类型特征信息,建立如表1所示的特征码库文件。

2.3.2 软件实现

在VS2010环境下用VC++建立数据格式识别与转换平台,提供数据浏览与解编函数调用接口;用动态连接库技术开发了如表2所示的数据格式浏览与解编模块。

在数据格式识别与转换平台中实现待转换的测井数据文件与特征库中存储的测井数据格式的特征信息快速自动搜索、匹配,并自动记录匹配的数据格式转换模块名称,具体实现流程见图1。

系统依据特征库匹配结果,自动调用相匹配的数据格式转换模块进行精确匹配,匹配成功后进行数据文件浏览、转换,完成数据格式的信息获取与转换。

在程序实现过程中,为检验特征库的正确性和唯一性,进行特征信息自动搜索、匹配时,如遇到多解性,程序自动报警,提示用户,对多解模块描述信息进行及时调整,保证特征信息的唯一性;如遇无法识别的模块,可进行人机交互,选择可能的解编模块进行验证,进一步完善特征信息,保证特征信息的正确性。

对于新增数据格式,只需在特征库中追加相应的描述信息,编写相应的解编模块。测井数据格式自动识别与转换软件实施流程见图2。

表2 实现的数据解编模块列表

图1 特征库操作流程

基于特征库的测井数据格式自动识别与转换方法已在中石化自主知识产权软件 “测井资料处理解释系统LOGIK3.0”中得到实现,利用该技术编写了24个数据格式转换模块,支持对目前国内外常用的50多种测井数据格式自动识别与解编,并转换成中石化测井数据存储格式SLF类型文件。

3 应用效果

该项技术已广泛应用于河南油田生产和科研中,并于2011~2012年在胜利、中原、江汉等10余个油田企业进行推广应用,在应用过程中不断对特征信息进行测试、验证和完善,实现了对胜利、中原、四川等多个油田常用及自定义数据格式的自动识别与转换。

大量的应用实践证明,该方法克服了以往测井资料处理系统中人工识别方式或半智能化模糊识别方式的缺点,解决了数据解编的难题,实现数据格式智能化、自动、快速、准确识别和解编,突破了以往数据格式识别瓶颈,提高了数据解编工作效率。

图2 软件实施流程图

4 结 论

(1)该项技术的应用,使得用户无需了解数据格式类型,不需要记忆转换模块名称,大大节约了数据转换时间,减少了人工劳动,提高了识别的准确度,提高了系统的运行效率。

(2)通过该项技术,可为整个测井行业建立一个标准的数据格式特征码库,对现有数据格式进行检验、解编,对新的数据格式进行扩充和描述。

[1] 龚福秀.测井数据格式转换系统的开发 [J].江汉石油科技,2006,16(1):65-68.

[2] 王卫,李光军,王慧萍,等.基于特征库的测井数据格式自动识别与转换方法:中国,ZL 2010 1 0203222.5[P].2012-11-07.

[3] 李光军,王卫,王慧萍.LOGIK测井微机解释系统开发技术分析 [J].石油天然气学报,2011,33(8):91-95.

猜你喜欢
数据格式数据文件自动识别
基于数据挖掘的船舶航迹自动识别系统
基于卫星遥感图像的收费站位置自动识别与校核
自动识别系统
数据文件恢复专题问答
数据文件安全管控技术的研究与实现
SQL数据文件恢复工具
基于RFID的户外广告监管系统的设计与实现
一种融合多业务的信息化系统框架研究
基于IEC61850的配网终端自动识别技术
基于ArcGIS的规划数据格式转换研究