基于遗传算法优化随机森林模型的机械钻速分类预测方法

2022-02-05 12:48张海军张高峰王国娜王立辉刘洋任阳峰郑双进
科学技术与工程 2022年35期
关键词:机械钻速钻井液钻头

张海军, 张高峰, 王国娜, 王立辉, 刘洋, 任阳峰, 郑双进*

(1.中国石油天然气股份有限公司大港油田分公司, 天津 300450; 2.中国石油天然气股份有限公司西南油气田分公司, 成都 610000;3.长江大学石油工程学院, 武汉 430100)

在油气钻探领域,机械钻速(rate of penetration,ROP)是评估钻井效率的重要指标,直接影响着钻井周期和钻井成本。针对机械钻速,中外学者大多运用传统方法建立模型进行预测,每种模型均有其适用性。Bahari等[1]建立了W.C.Maurer方程,但该方程考虑因素不够全面;Adebayo等[2]建立了岩石特性、物理性质与机械钻速之间的经验模型,但未考虑钻井参数对机械钻速的影响;Kumar等[3]研究得到了一套机械钻速预测模型,但该模型参数受岩性影响较大,且模型较为复杂;Hung等[4]研究得到了基于旋转冲击钻头的机械钻速预测模型,仅在硬度高的地层中较为适用;巨满成等[5]、杜镰等[6]基于岩石可钻性对机械钻速预测进行了研究,但研究仅引用了少量的钻井参数,基于大量统计数据并应用各种数学方法进行处理而建立了钻速方程,由于不具有普遍性,致使其应用受到限制;田璐等[7]通过综合应用油基钻井液、旋转导向地质导向、双凝双密度水泥浆等技术,并进行了钻头优选和钻具组合优化,有效提高了机械钻速。李琪等[8]提出了一种人工智能算法与结合粒子群的神经网络算法(particle swarm optimization-back propagation, PSO-BP)神经网络相结合的钻进机械钻速预测模型,并根据实际工况对其进行了模型评价,结果表明PSO-BP机械钻速模型具有良好的预测精度。李昌盛[9]利用多元回归方法改进了B-Y(Bourgoyne-Young)钻速方程,但该方程只适用于钻井液钻井;景宁等[10]提出了一种基于层析分析法和神经网络相组合的智能模型,利用岩石抗压强度、钻头尺寸等影响因素进行钻速预测;刘胜娃等[11]研究了一种基于人工神经网络技术的定向井机械钻速预测模型,该模型能在数据量较充足、数据质量较高的条件下得出较高预测准确度;石祥超等[12]评价了随机森林、支持向量机、梯度提升树、人工神经网络4种人工智能算法在四川盆地某区块的机械钻速预测精度,结果表明随机森林算法对区块内各单井数据的预测精度能达到90%,对整个区块数据预测的准确度能达到88%;左迪一[13]通过采用随机森林回归方法对5种类别的井建立钻速预测模型并进行现场应用验证,结果均取得了较好的效果,说明随机森林回归方法具有非常强的针对性和准确度。

调研分析发现,现有的机械钻速预测大多依靠经验,或是在前人已建立的模型基础上行改进,或是依靠控制变量等方法进行实验,寻找影响机械钻速的主要因素,这些预测方法难免会造成较大误差,难以满足当前钻井施工需求。近年来,随着大数据与机器学习技术的兴起,基于历史钻井数据运用机器学习方法进行大数据分析,开展机械钻速预测不失为一种好方法。现通过分析东部某油田机械钻速的影响因素,结合钻井历史数据建立了机械钻速预测模型,并利用遗传算法进行优化,测试模型的精度和泛化性,得到了满足施工设计及现场作业需要的机械钻速预测方法,有助于指导该区块钻井施工参数优化,提高钻井施工效益。

1 机械钻速影响因素分析

现场钻井施工过程中,钻压、转速、钻井液密度、循环排量、漏斗黏度、钻头尺寸及牙齿磨损等因素都会影响机械钻速。钻压通过影响破岩作用来影响机械钻速,如果在硬度较高的地层施加小钻压,会直接影响机械钻速的提高[14];转速也会对钻头破岩产生较大影响,但影响略小于钻压,当钻遇较软地层时提高转速可明显提高机械钻速,但当钻遇较硬地层时,提高转速并不能很好地提高机械钻速[14];钻井液的密度、排量、漏斗黏度共同影响井底岩屑清理程度和辅助破岩程度,进而影响机械钻速[15];增大钻头尺寸会降低钻头破岩效率,进而降低机械钻速,但减小钻头尺寸又会影响油气开采效率,所以钻头尺寸设计需要权衡钻头尺寸与机械钻速的关系来满足油田开发需求[16]。另外,钻头牙齿磨损、老化、结构设计不合理等因素也会造成机械钻速降低[16]。本文中搜集了来自东部某油田的现场钻井施工数据,考虑机械钻速影响因素包含钻压、转速、钻头直径、钻头压降、钻头出入井新度、钻头磨损程度、钻井液密度、漏斗黏度及排量,基于以上影响因素建立满足施工设计及现场作业需要的机械钻速分类预测方法。

2 机械钻速数据处理与分析

2.1 数据预处理

本文建模数据来自东部某油田的现场钻井施工数据,原始数据如表1所示,总计398组,变量名称包括入井新度、出井新度、牙齿磨损量、钻压、转速、钻井液排量、钻井液密度、钻井液漏斗黏度、钻头压降、钻头直径及平均机械钻速。其中以前十组变量作为建立模型时的输入变量,平均机械钻速为模型的输出变量。

2.2 机械钻速分级

为了提高机械钻速分类预测的针对性,需要对机械钻速进行分级,钻速分级使得机械钻速数值大小不受钻头尺寸制约,且将建模任务从回归问题转化为分类问题,有利于提高模型的精度。根据现场实际工况,将不同钻头尺寸对应的机械钻速进行分级(“低钻速”“中钻速”“高钻速”),分级规则如表2所示。

按照表2所示的分级规则对表1中的机械钻速数据按不同钻头直径进行分级,分级后的数据如表3所示(低钻速为1;中钻速为2;高钻速为3),为消除各特征之间量纲不同造成的数值规模差异,需要对除机械钻速外所有特征数据进行归一化处理,归一化的计算方法为

(1)

表1 顺南区块现场钻井施工原始数据(前十行)

表2 不同钻头尺寸对应的机械钻速分级

式(1)中:x′i为归一化后的数据;xi表示为归一化前的原始样本数据;xmin表示为原始样本数据特征值的最小值;xmax表示为原始样本数据特征值的最大值。归一化处理后的施工数据见表3所示。

3 机械钻速分类预测模型建立

3.1 机器学习算法原理介绍

随机森林是集成学习算法之一[17-19],它的基学习器是决策树;该算法的核心思想是采用多颗决策树的投票机制,解决分类和预测问题。对于回归预测问题,将多棵树的回归结果进行平均得到最终结果;对于分类问题,将多棵树的判断结果进行投票,基于少数服从多数得到最终的分类结果;该算法有运行速度快,精度高等特点。

K近邻算法[20-22](K-nearest neighbor,KNN)寓意K个靠近的“邻居”,属于监督式学习算法;该算法不会预先生成一个分类预测模型,而是将建模与预测、分类工作同时进行,模型构建好后进行分类、预测结果也将输出;该算法可以对离散型变量进行分类,也可以对连续型变量进行预测。

支持向量机[23-25](support vector machine,SVM)的核心思想是结构风险最小化原则和统计学习理论VC(Vapnik-Chervonenkis)维理论,该算法属于监督式机器学习算法,可用于离散因变量的分类和连续因变量的预测。

3.2 建立机械钻速分类预测模型

基于预处理后的钻井施工数据,由Python软件在数据中随机选出建模所需的训练集和评估模型精度所需的测试集,运用随机森林算法、K近邻算法、支持向量机算法分别建立模型,建模过程全程使用Python自编程序,随机森林算法、K近邻算法、支持向量机算法通过Sklearn库实现。

表3 机械钻速分级预处理后的数据集(前10行)

以数据集中的钻头入井新度、钻头出井新度、牙齿磨损量、钻压、转速、钻井液排量、钻井液密度、钻井液漏斗黏度、钻头压降、钻头直径作为输入变量,以平均机械钻速作为输出变量,训练数据与测试数据的划分为9∶1,基于随机森林算法、K近邻算法、支持向量机算法建立默认参数的机械钻速分类预测模型;3种算法模型默认参数如表4所示,默认模型分类预测结果如表5~表7所示。

由机械钻速等级预测结果可知,随机森林算法、K近邻算法、支持向量机算法在39组测试数据集的分类准确率分别为69.2%、59%、71.8%,分类效果最好的是支持向量机算法,其次是随机森林算法、K近邻算法。考虑随机森林算法、K近邻算法的分类准确率不高,需要针对模型参数进行优化,以提高模型预测精度。

表4 3种算法对应的模型默认参数

表5 随机森林算法预测机械钻速等级结果混淆矩阵

表6 K近邻算法预测机械钻速等级结果混淆矩阵

表7 支持向量机算法预测机械钻速等级结果混淆矩阵

3.3 模型优化与预测结果分析

遗传算法(genetic algorithm,GA)[26-28]。是基于自然界遗传机制和生物进化论的一种高效随机搜索和优化方法,其具有全局优化性能,能够找到机器学习算法参数最合适的值,使得算法达到最优配置,从而更加准确地预测机械钻速分类。遗传算法优化模型参数流程图如图1所示。

遗传算法的种群数量设定为200,繁衍最大代数设置为80,染色体交叉概率为80%,染色体变异概率为染色体长度的倒数,适应值函数设定为39组测试数据在各优化模型的准确率。基于遗传算法优化后的3种算法模型参数如表8所示。

图1 遗传算法优化模型参数流程图Fig.1 Flow chart of optimizing model parameters by genetic algorithm

表8 基于遗传算法优化后的3种算法模型参数

将优化后的模型参数输入对应模型,利用39组测试数据验证优化后各模型的精度和泛化性,优化后的3个模型预测结果如表9~表11所示。

表9 优化后的随机森林算法预测机械钻速等级结果混淆矩阵

表10 优化后的K近邻算法预测机械钻速等级结果混淆矩阵

表11 优化后的支持向量机算法预测机械钻速 等级结果混淆矩阵

机械钻速分类预测结果表明,经遗传算法优化后3种算法的准确率均有提升,随机森林算法的分类准确率提高了12.9%,K近邻算法的分类准确率提高了12.8%,支持向量机算法的分类准确率提高了5.2%,其中随机森林算法的分类准确率最高为82.1%,其次是支持向量机算法和K近邻算法,该方法东部某油田机械钻速预测提供了新思路。

4 实例验证

4.1 某井基本情况

该井是东部某油田的一口四开井身结构井,设计井深6 190 m。一开φ660.4 mm钻头钻至井深494 m,下入φ508 mm套管,钻井液密度1.10 g/cm3,漏斗黏度8 s,钻压40 kN,转速50 r/min,钻井液循环排量60 L/s;二开φ444.5 mm钻头钻至井深2 236 m,下入φ339.7 mm套管,钻井液密度1.25 g/cm3,漏斗黏度55 s,钻压220 kN,转速80 r/min,钻井液循环排量65 L/s;三开φ311.2 mm钻头钻至井深4 720 m,下入φ244.5 mm套管,钻井液密度1.40 g/cm3,漏斗黏度60 s,钻压80 kN,转速80 r/min,钻井液循环排量60 L/s;四开φ215.9 mm钻头钻至井深6 166 m,下入φ139.7 mm套管,钻井液密度1.20 g/cm3,漏斗黏度45 s,钻压40 kN,转速60 r/min,钻井液循环排量30 L/s。该井累计使用钻头27只,其中一开使用钻头1只,二开使用钻头2只,三开使用钻头4只,四开使用钻头3只,机械钻速范围在1.03~123.67 m/h。

4.2 结果验证分析

选用皮尔逊相关系数法进行分析评价,该方法可用于考量两个变量X和Y之间的相关度,其值介于-1~1,1表示变量完全正相关,0表示无关,-1表示完全负相关。总体相关系数定义为

(2)

估算样本的协方差和标准差的公式为

(3)

图2 机械钻速预测值与实际值相关性对比图Fig.2 Correlation diagram between predicted and actual ROP values

运用遗传算法优化后的随机森林模型进行机械钻速分类预测,预测值与实际值对比如图2所示。从图2可以看出,皮尔逊相关系数r=0.987 3,机械钻速分类预测值与实际值之间具有很好的相关性,二者之间误差很小,表明运用遗传算法优化后的随机森林模型可用于东部某油田机械钻速分类预测,根据多因素敏感性分析可进一步开展钻井施工参数优化。

5 结论

(1)分析了东部某油田机械钻速的主要影响因素,基于该油田的钻井历史数据分别运用随机森林算法、K近邻算法及支持向量机算法建立了机械钻速分类预测基础模型,测试得以上3种算法的分类预测准确率分别为69.2%、59%、71.8%,模型预测精度有待提高。

(2)运用遗传算法针对随机森林算法、K近邻算法及支持向量机算法建立的机械钻速分类预测基础模型进行优化,优化后3种模型的分类预测准确率分别为:82.1%、71.8%、77%,其中经遗传算法优化后的随机森林模型精确度最高,可用于该油田机械钻速分类预测及施工参数优化。

猜你喜欢
机械钻速钻井液钻头
地层抗钻能力相似性评价及钻头选型新方法
近钻头地质导向在煤层气水平井的应用
原矿土钻井液室内评价与应用
树枝状聚合物在钻井液中的应用研究进展
一种钻井液用高效抗磨润滑剂
可抑制毛刺的钻头结构
可切换式反循环潜孔锤钻头设计及优化
基于粒子群算法的钻进参数多目标优化
董7井井壁稳定钻井液技术