基于随机森林的K-近邻算法划分火成岩岩性

2022-01-14 09:41魏伯阳吴煜宇潘保芝郭宇航
特种油气藏 2021年6期
关键词:图版训练样本岩性

赖 强,魏伯阳,吴煜宇,潘保芝,谢 冰,郭宇航

(1.中国石油西南油气田分公司,四川 成都 610041;2.吉林大学,吉林 长春 130026;3.河南省煤炭地质勘察研究总院,河南 郑州 450046)

0 引 言

由于地质背景的特殊,中国火成岩油气藏成为石油资源的重要组成部分。火成岩岩性种类多、结构复杂,基于测井资料划分火成岩的岩性是火成岩储层评价的重点和难点。利用测井数据划分火成岩岩性本质上分为两大类:数据分类以及预测方法的研究[1]。数据分类常用的方法有图版法[2-5]和非常规测井数据法[6-7](电成像、元素测井等),但图版法划分岩性容易受到主观因素影响,非常规测井成本较高,大部分井中缺少相应数据。预测方法主要为利用算法(SVM、主成分分析、神经网络等)训练模型预测火成岩岩性[8-13],这些算法一般需要调节的参数较多。一般算法划分火成岩岩性准确率的最大影响因素为训练样本的数量,训练样本数量越大划分岩性准确率越高,当数据集为小数据集时(将训练数据集小于100且各类别样本均衡时定为小样本数据集)准确率较低。而实际生产中由于薄片鉴定过程较复杂、薄片鉴定数量少,火成岩岩性识别训练数据集符合小样本数据集特征,因此,需要一种适用于小样本的机器学习方法。针对上述问题,该文提出基于随机森林(Random Forest,RF)的K-近邻(K-Nearset Neighbor,KNN)法划分火成岩岩性[14-23]。

1 方法原理

1.1 随机森林(RF)算法

随机森林(Random Forest,RF)算法是由一组决策树组成的分类器,属于集成学习的一种(图1)。RF算法用有放回的随机抽取法(bootstrap)抽取样本中的S个数据组,组成S棵决策树,每次未被抽到的样本组成袋外数据(out of bag,oob)。

对oob轻微扰动,如果该特征对标签重要性高,则扰动后RF分类准确率与扰动前分类准确率差值较大,反之,则准确率变化小。

(1)

式中:D为重要性度量;N为训练样本个数;ooberr2为oob扰动后的分类准确率,%;ooberr1为oob扰动前的分类准确率,%。

图1 随机森林原理

基于oob的RF算法可对数据进行有效分析,并同时给出重要性评分。在当前所有算法中,RF算法具有极好的准确率,能够评估各个特征在分类问题上的重要性,不需要做很多参数的调试。用原始数据中少数几个主成分来表示整个原始数据,这些主成分彼此互不相关,并且对原始数据中的信息损失较少。

1.2 K-近邻算法

K-近邻算法(K-nearest neighbor,KNN)基本思想是在向量空间模型表示下,分别计算待分类点XU与训练样本的相似性。如果XU的k个近邻都属于一个类别,则该样本也属此类别。否则,以k个近邻中占多数的类别来确定样本的类别(图2)。ω1、ω2、ω3为已知3种类别,可见XU属于ω1。

图2 KNN分类示意图

KNN算法流程:

T=(x1,y1),(x2,y2),…,(xi,yi),yi∈{c1,c2,…,cm}

(2)

式中:T为数据集;xi为样本的某个特征向量;yi为样本的类别;c为标签;m为标签类别。

在数据集T中找出与待分类对象最相近的k个点,包含了所有k点的区域记作nk(x)。在nk(x)中根据少数跟随多数的原则,来决定x的具体类别:

y=argmaxcj∑xi∈nk(x)I(yi=cj),(i=1,2,…,k;j=1,2,…,m)

(3)

式中:y为分类结果;I为指示函数,即当yi=cj时,I=1,否则,I=0。

当k=1时,KNN成为最近邻算法。最近邻法将数据集中与x最相近点的类作为x的类。

2 研究区火山岩岩性及测井曲线特征

研究区位于川西南部及川东开江-梁平海槽西侧,受峨眉地裂运动影响,川西南地区火山活动强烈,喷发期为二叠纪茅口晚期—龙潭期,火山岩段底部与茅口组石灰岩不整合接触,顶部与龙潭组陆相碎屑岩不整合接触[12]。盆内火山岩主要以溢流相玄武岩为主,远离火山活动中心。目的层段火成岩上部和下部为泥岩和碳酸盐岩。分析录井、岩心、薄片等资料可知,目的层段火成岩主要包括侵入岩和火山岩两大类,其中,火山岩主要分为玄武岩、角砾熔岩、火山碎屑岩,侵入岩分为粒玄岩和辉绿玢岩。

图3为研究区X1井的火成岩段常规测井曲线与薄片鉴定结果。图3a中5 620~5 628 m为玄武岩段,具有高密度、高电阻率和低声波时差特点,岩性致密,密度值多大于2.8 g/cm3,声波时差低于195 μs/m,电阻率大于300 Ω·m。角砾熔岩密度为2.6~2.8 g/cm3,声波时差为195~230 μs/m,电阻率为5~100 Ω·m。火山碎屑岩密度较低(图3b),约为2.6 g/cm3,声波时差为230~260 μs/m,测井电阻率仅为3~5 Ω·m。综上所述,X1井由火山岩熔岩至角砾熔岩和火山碎屑岩,随着角砾含量的增多,密度逐渐减小,声波时差逐渐增大,电阻率呈降低趋势。图3c、d为侵入岩常规测井曲线,辉绿玢岩和粒玄岩都呈高密度、低声波时差特征,自然伽马为60~80 API,辉绿玢岩的电阻率比粒玄岩电阻率高。将研究区泥岩、碳酸盐岩一起考虑,制作岩性识别图版。图4为川西二叠系岩石中子-密度交会图,由图4可以看出,泥岩、角砾熔岩和火山碎屑岩处于图版的同一区域,难以区分。图版法划分岩性需要人工确定阈值,然而阈值的确定较大程度受到经验和数据本身影响。

图3 X1井火成岩常规测井曲线特征及薄片鉴定结果

3 RF-KNN算法划分火成岩岩性

3.1 RF算法测井曲线相关性分析

砂泥岩地层常用的几条与岩性相关的常规测井曲线包括自然伽马(GR)、深侧向电阻率(Rt)、密度(DEN)、中子(CNL)、声波(AC),将其作为输入(部分井无自然电位测井曲线,不同井或井段钻头程序有差异,因此,去掉自然电位及井径曲线),以岩石薄片鉴定的岩性编码为输出。岩性编码如下:泥岩为0,碳酸盐岩为1,玄武岩为2,角砾熔岩为3,火山碎屑岩为4,粒玄岩为5,辉绿玢岩为6。

经RF算法分析得到测井曲线重要性排序,可以观察到GR曲线与岩性的相关性最高,相关性为0.345,之后依次是Rt、DEN、CNL、AC,相关性分别为0.252、0.190、0.110、0.103,所有曲线的总相关性为1.000。

将相关性高的GR与Rt曲线做交会图(图5)。由图5可知:角砾熔岩GR为20~60 API,Rt为8~100 Ω·m;火山碎屑岩GR小于53 API,Rt小于8 Ω·m;玄武岩GR为40~60 API,Rt大于100 Ω·m;粒玄岩GR大于60 API,Rt为8~100 Ω·m;辉绿玢岩GR大于60 API,Rt大于100 Ω·m;碳酸盐岩GR小于40 API,Rt大于100 Ω·m;泥岩GR大于53 API,Rt小于8 Ω·m。结果表明,交会图中的不同岩性之间有明显边界,RF算法相关性分析可靠。则火成岩岩性也可以用这5条常规测井曲线作为划分岩性的输入曲线。

图5 川西二叠系地层GR-Rt岩性识别图版

研究区共有薄片鉴定岩样56块,其中,火成岩38块,其余为泥岩和碳酸盐岩。火成岩样品中包含侵入岩12块(粒玄岩6块、辉绿玢岩6块)和火山岩26块(火山角砾熔岩10块、火山碎屑岩10块、玄武岩6块)。

3.2 KNN划分火成岩岩性

随机选取35块岩样及其对应深度(校正深度)的常规测井数据作为训练样本,其中,火成岩有24块,采用KNN算法划分火成岩岩性。测试样本共21块,其中,14块为火成岩样本(表1)。

表1 训练样本岩石薄片鉴定岩性统计

陈玉林[13]认为利用待分类岩性的种类可以控制k值的选取,比如有5种岩性,则每种岩性周围近邻为4个,k的选取应大于4。然而研究过程中发现训练样本的数量也是控制k值选取的另一因素。图6为不同的k值下KNN算法的岩性回判和测试结果,表2为不同的k值下KNN的岩性回判和测试准确率。可以看出:k=3时,火成岩回判准确率为87.5%,测试准确率为92.9%。图5中角砾熔岩和辉绿玢岩中有极个别薄片鉴定结果向其他岩性靠拢,导致回判准确率比测试准确率小。当这类离散点放入训练样本中时,岩性边界划分更准确;k=5时,火成岩回判准确率为66.7%,测试准确率为64.3%;k=7时,火成岩回判准确率为62.5 %,测试准确率为50.0%。结果表明,随着k的变大,火成岩岩性划分准确率下降。研究区岩石薄片数量少、岩性种类多,每种岩性训练样本为4~6个。当k值大于岩性的训练样本数量时会发生误判,k值越大,岩性划分准确率越低。因此,在小样本数据集利用KNN算法划分岩性,k值的选取首先要考虑训练数据每种岩性样本的数量,最终文中选择k为3的KNN模型。

图6 KNN回判与测试结果

表2 不同k值回判准确率及测试准确率

图7为图版法与KNN算法在X1井火成岩岩性划分结果。由图7可知,KNN算法不仅可以划分火成岩岩性,也能准确地划分火成岩和沉积岩边界。该井5 610~5 620 m测井曲线呈泥岩特征,KNN算法岩性划分正确,图版法错误地将该段划分为粒玄岩。5 645 m时Rt、DEN曲线增大,CNL、AC曲线减小,呈火山碎屑岩特征,图版法错误地划分为角砾熔岩。整个岩性划分结果中,KNN算法对测井曲线变化敏感,5 730~5 740 m由于钻头程序发生变化,中子和声波测井曲线都减小导致KNN算法将火山碎屑岩识别为角砾熔岩。井径变化或测井曲线产生波动时容易出现个别深度点识别错误,但在大段岩性划分结果准确。

图7 KNN算法与图版法岩性划分结果

4 结 论

(1) 采用RF算法分析测井曲线和火成岩岩性的相关性,相关性由高到低依次为GR、Rt、DEN、CNL和AC。

(2) 对比图版法,KNN算法划分火成岩岩性受人为因素影响小,岩性划分准确率更高。k值的选取受分类数量和训练样本数量2个因素控制,且后者对k值选取的影响程度高于前者。文中选择k为3,24块火成岩的回判准确率为87.5%,14块火成岩测试准确率为92.9%。

(3) KNN算法对测井曲线变化较为敏感,训练时需要将样本中的离散点加入到训练样本中,划分出的岩性边界更准确。KNN算法不仅可以有效划分火成岩岩性,还可以准确划分沉积岩与火成岩的分界面。

(4) 实际生产中由于成本等原因一些井的薄片鉴定结果数量较少,RF-KNN算法对这些井的岩性划分具有一定的实用和借鉴意义。

猜你喜欢
图版训练样本岩性
基于高中地理教材人教版和中图版比较的教学设计研究
基于谓词逻辑的飞机线束工装图版设计
人工智能
黔中地区土壤酶活性对岩性的响应
新世纪以来唐代墓志的收藏与刊布
测斜仪在钻孔施工中的应用技术
渠道运行多年后渠体中各土体物理力学性质对比情况分析
基于小波神经网络的网络流量预测研究
渠道运行多年后渠体中各土体物理力学性质对比情况分析
图版索解