岩石薄片图像的矿物识别率统计方法∗

2019-05-07 02:32谢礼科吴耀坤滕奇志
计算机与数字工程 2019年4期
关键词:长石薄片识别率

蒋 欢 谢礼科 刘 明 吴耀坤 滕奇志*

(1.新疆油田分公司实验检测研究院 克拉玛依 834000)(2.四川大学电子信息学院图像信息研究所 成都 610065)

1 引言

采用数字图像处理技术对岩石薄片图像进行处理与分析已经成为石油地质行业的常用手段。利用岩石薄片的正交偏光序列图像对矿物颗粒进行提取与识别是一种新方法,已取得了较好的效果。在进行颗粒矿物识别研究中,需要对算法的识别效果进行评价,因此,有必要定义一个评价方法。本文主要针对石英、长石的自动识别,讨论了矿物颗粒机器识别是否正确、以及统计整个岩石薄片图像中矿物识别率的方法。

2 基于岩石薄片图像的颗粒分割与识别

岩石薄片中矿物颗粒形状大小不一、具有复杂的纹理特性,因此,针对岩石薄片单一图像的颗粒分割往往不能满足实际应用。结合岩石薄片的正交偏光序列图像存在颗粒消光性[1~2]的特点,可以达到较为良好的分割效果,更能满足实际的应用需求。目前,在实际应用中主要采用以下几种分割方法。

1)基于灰度阈值的分割算法[3]:一些标准岩石薄片中,石英、长石等矿物的灰度均值存在明显差异,利用基于灰度阈值的图像分割算法可以将石英和长石颗粒提取出来。

2)统计区域融合(Statistical Region Merging,SRM)算法[4~5]:对感兴趣区域采用基于区域生长和区域合并的SRM算法进行进一步分割,可以较好地解决矿物颗粒之间粘连的问题。

3)基于边缘流的分割算法[6~7]:矿物颗粒在不同正交偏光角度下具有不同的消光位置,颗粒之间会形成良好的边界,基于边缘流算法的优秀特性有利于保证颗粒目标的准确性与完整性。

颗粒提取后,利用颗粒表面特征进行矿物成分的识别。在矿物颗粒种类识别的研究中,目前主要采用基于机器学习[8]的框架对颗粒进行训练与识别分类,需要建立石英、长石的特征参数[9~10]样本库,采用贝叶斯分类[11]、随机森林[12]、支持向量机[13]等算法进行训练,基于训练结果对待识别颗粒进行分类。在实际应用中,随机森林算法对颗粒的分类效果比较理想[6]。

3 识别率统计方法

由于岩石矿物的表面特性很复杂,其代表性的特征受多种因素影响。因此,采用图像处理方法进行石英、长石的识别是较为困难的问题,识别率是衡量识别效果的重要指标,为了准确统计薄片识别率,首先要有“金标准”,由薄片鉴定岗位专业人员对薄片图像进行颜色标注,形成标准图像,以此为基准,将机器识别图像与其作对比,对标准图像中每一个颗粒进行判别,最终统计识别率。

岩石薄片图像的识别效果实际由颗粒分割的准确率和机器分类识别的正确率两方面因素决定,在实际应用中,需要将这两方面因素结合在一起进行岩石薄片图像矿物识别率的统计分析。

3.1 颗粒识别判定策略

以石英、长石的识别为例,图1(a)为一幅岩石薄片图像,大部分颗粒为石英和长石,由薄片专业鉴定人员对其进行手工提取与颜色标注,以此作为识别的标准图像,图1(b)为同样薄片采用机器识别后的结果。从图中可以看出,受颗粒目标提取和粘连分割的影响,颗粒图像的表现形态与人工标识的不完全相同,如果严格采用图像逐像素对比进行识别率统计,会出现较大误差,因此需要研究判别统计的策略,能够良好处理两幅图像中颗粒目标的差异,减小识别率统计误差。

图1 岩石薄片图像

3.1.1 石英、长石的识别判定

以标准图像为基准,判别标准图像中所有石英、长石在机器图像中是否识别正确。利用连通区域标记算法[14~15]得到标准图像中所有待判定颗粒目标区域的边界、面积等信息,由此,可单独提取每一个待判定的石英、长石,建立一幅同等大小,且只有该颗粒目标的二值图像(前景为1值,背景为0值)。将该二值图像与标准图像相乘[16],可得到该待判定颗粒目标区域在机器图像中重合的信息图像。

当机器图像与标准图像中相应的两颗粒目标完全一致,图像相乘得到的区域也与原颗粒目标完全一致(如图2),因此,仅以颜色便可判别是否识别正确。

图2 图像相乘示意图

标准图像为人为勾画目标,计算机自动提取的目标与标准图像有一定差异,进行图像相乘时主要存在以下四种情况。

1)标准图像中颗粒与机器图像中基本一致

当原始颗粒边界明显,利于颗粒分割时,得到的颗粒目标图像区域往往与标准图像相差不大,如图3所示。

图3 标准图中颗粒与机器图基本一致

由上图可见,相乘图像中的目标区域基本与标准图像的颗粒区域基本一致。

2)标准图像中的颗粒目标在机器图像中未被提取

由于原始颗粒目标整体亮度较低,在分割时可能会被当作背景而未被提取出来,其相乘图像中没有任何目标区域。对于该种情况,应判定标准图像中该颗粒被识别错误。

3)标准图像中若干颗粒在机器图像中被合并成一个

由于原始颗粒之间的粘连性或者颗粒间边界不明显,在分割时会导致若干颗粒目标融合成了一个颗粒目标,如图4所示。

图4 标准图中两个颗粒融合成一个

直接对标准图像中每一个单颗粒目标单独进行图像相乘后判别。由图4可见,每一个颗粒目标的相乘图像与标准图像中该颗粒目标区域基本一致,因此,图4(b)中颗粒1应判定为识别正确,颗粒2应判定为识别错误。

4)标准图像中一个颗粒在机器图像中被分成若干个

由于原始颗粒表面纹理的干扰,在分割时会导致一个颗粒目标在机器图像中被分成若干个颗粒目标,并且分割出的颗粒目标均大致分布在标准图像中原颗粒目标区域,如图5所示。

图5 标准图中颗粒被分成两个

由图5可见,相乘图像中出现了两块与机器图像重合的目标区域,并且面积大小不一,针对此情况,我们以重合区域的面积判定相应颗粒是否被识别。计算其中最大重合区域的面积与标准图像中待判定颗粒目标区域面积的比值,若比值达到一定的阈值,可以认定在机器图像中存在该颗粒目标,且以该重合区域的颜色进行识别判定。对于标准图像中一个颗粒目标被分割成很多个颗粒目标的情况,相乘图像中一定会出现很多块较小的重合区域,并且其中没有一块区域的面积可以达到相应的阈值,这样的情况则被视为识别错误,符合实际情况。同时,将面积比值作为机器图像中颗粒存在的判定准则也适用于上述三种情况,并且判定结果也符合相应情况。

考虑到颗粒之间的影响,相乘图像中往往会出现干扰区域,综合上述几种情况,对于单个颗粒的判定,利用相乘图像中最大区域的面积与待判定颗粒目标区域面积的比值作为判定标准,当两者面积比达到70%时,可基本认定在标准图像中存在该颗粒目标。因此,规定单个石英(长石)颗粒的具体判定策略如下。

在相乘图像中寻找是否存在与标准图像中待判定颗粒目标颜色相同的区域,如果存在,且该区域的面积达到待判定的颗粒目标区域面积的70%,则认定机器图像中存在该颗粒目标,判定计算机对该颗粒目标识别正确,同时,记录下标准图像中识别正确的颗粒信息用于统计计算。

3.1.2 未知类颗粒的识别判定

薄片图像矿物成分分析主要针对石英、长石进行分析统计,定义异于石英、长石的矿物类型以及岩屑颗粒属于未知类,因此,在进行成分分析时,不考虑未知类颗粒目标。但是,对未知类颗粒仍需进行判定统计,将未知类识别的错误率作为虚警率。未知类的判定仍然采取图像相乘的形式,岗位人员根据未知类在薄片图像中的整体情况对提取的目标图形层进行预处理,最终存在以下几种情况:

1)标准图像中单个未知颗粒目标基本被提取出来,与3.1.1节中情况1)相类似。

2)一些未知类颗粒在正交偏光下没有消光性,在进行颗粒分割时未被提取出来。由于分析时不考虑未知类,因此,判定未提取出的未知类颗粒识别正确。

3)正交偏光下的岩屑颗粒自身形态比较复杂,会导致标准图像中单个未知颗粒目标被提取成几个大小不一的目标区域,并且这些目标区域只占原颗粒目标区域的一部分,如图6所示。

图6 岩屑颗粒示意图

由图6可见,相乘图像中目标区域总面积仅占标准图像中原始颗粒区域面积的小部分,当这些目标区域识别为未知类时,根据实际情况应判定识别正确。

结合颗粒提取的实际情况以及岗位人员的分析需求,并综合上述情况的分析,当未知类颗粒被提取出一部分目标区域,且这些目标区域中识别成未知类的总面积达到原颗粒面积的40%,可认定该未知类颗粒识别正确。同时,考虑到颗粒之间的影响,相乘图像中会出现较小面积的干扰区域,因此,规定单个未知类颗粒的判定策略如下。

在相乘图像中,所有目标区域的面积总和低于待判定未知颗粒目标区域面积的10%,或者,所有与未知类颜色相同的目标区域的面积总和达到待判定未知颗粒目标区域面积的40%,均认定计算机对该未知类颗粒目标识别正确,同时,记录下标准图像中识别错误的未知类颗粒信息用于统计计算。

3.2 识别率统计策略

完成标准图像中每一个颗粒目标的判别后,需要进行石英、长石的识别率统计计算。综合以上分析,分别以面积或数目定义识别率统计的计算方式。

以面积统计,分别计算石英、长石的识别率P ,如式(1)所示:

式中,S正确为标准图像中所有识别正确的石英(长石)的总面积,S总为标准图像中所有石英(长石)的总面积。

以数目统计,分别计算石英、长石的识别率P ,如式(2)所示:

式中,N正确为标准图像中所有识别正确的石英(长石)的总数,N总为标准图像中所有石英(长石)的总数。

同时,以未知类颗粒识别的错误率作为岩石薄片图像的虚警率,对整个岩石薄片图像的识别效果进行辅助评估。

以面积统计,虚警率 P虚警的计算如式(3)所示:

式中,S错误为标准图像中所有识别正确的未知颗粒的总面积,S总为标准图像中所有未知颗粒的总面积。

以数目统计,虚警率 P虚警的计算如式(4)所示:

式中,N错误为标准图像中所有识别正确的未知颗粒的总数,N总为标准图像中所有未知颗粒的总数。

上述计算方法均能满足3.1节中列举的各种情况的判定结果,达到评估的目的。在实际应用中,岗位人员可以结合岩石薄片图像中矿物颗粒的大小和数目的整体分布情况,根据分析需求选用式(1)或式(2)计算岩石薄片图像的识别率,同时选取式(3)或式(4)计算虚警率。

4 实验结果

为了验证本方法统计的准确性,对大量的岩石薄片图像进行识别率统计计算:首先按照3.1节中的判定方法对标准图像中每一个单个颗粒进行识别判定,最终根据标准图像中全部颗粒的判定结果利用3.2节中计算方法分别计算薄片中石英、长石的识别率以及薄片图像的虚警率。

以下列举3.1节中的岩石薄片予以说明。按照常规的机器学习分类算法进行识别统计,应将薄片图像中所有颗粒单独、完整地提取出来,形成单独的颗粒图像,逐一送入基本的机器学习系统中进行识别分类,从而得到每一个颗粒目标单独分类的结果,该过程如图7所示,最终根据所有颗粒目标单独识别的结果进行识别率统计。

在实际的生产薄片分析中,颗粒提取对识别率产生了较大影响,因此对于实际应用来说,需要直接对整个薄片图像分割出的颗粒进行识别分类,得到完整的机器识别图像,如图8所示,其中已用圆圈大致标注出机器识别图像与标准图像中明显有差异的颗粒目标,最后利用本文提出的方法进行识别率的统计。以上两种方法的识别率计算结果见表1。

图7 颗粒单独识别示意图

图8 岩石薄片图像

对比两组计算结果可知,由于图像分割的影响,不能保证颗粒目标提取的完整性,导致岩石薄片图像的识别率会有所降低。并且,结合图8中岩石薄片机器图像与标准图像的整体情况,利用本文提出的统计方法进行识别率计算的结果与岗位人员目估结果基本一致,能够达到岗位人员分析的需求。

表1 识别率计算结果

实验结果表明,本文提出的识别率统计方法能够良好处理标准图像与机器图像中颗粒目标的各种差异情况,达到以原始颗粒目标为衡量的标准进行严格判别,对于整幅图像的矿物识别率统计符合实际情况。

5 结语

本文针对岩石薄片图像中矿物颗粒的分割和识别中的差异问题,提出一种岩石薄片图像中矿物识别率统计的方法。结果表明,该方法实现了对完全不同、但有相关性的两幅图像进行识别判定,能够良好的处理各种情况;实现了利用计算机自动统计岩石薄片图像中矿物的识别率、虚警率,对不同算法的识别效果进行评判,进而减少岗位人员工作量,提高工作效率。

猜你喜欢
长石薄片识别率
趣味英语听力:Say No to Bad Social Habits
来自森林的植物薄片
Chinese Ceramics
浅谈如何增加北宋官窑釉面玉质感的技术要求
水铵长石成因分类综述
湖北某长石矿石综合除铁试验研究
你真好
你真好
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术