基于深度学习的介形类化石层次化识别

2022-06-08 01:17安玉钏陈雁黄玉楠李平蒋裕强王占磊西南石油大学计算机科学学院成都610500西南石油大学油气藏地质及开发工程国家重点实验室成都610500西南石油大学地球科学与技术学院成都610500

地质论评 2022年2期

安玉钏，陈雁，黄玉楠，李平，蒋裕强，王占磊西南石油大学计算机科学学院，成都，610500；2) 西南石油大学油气藏地质及开发工程国家重点实验室，成都，610500；西南石油大学地球科学与技术学院，成都，610500

内容提要: 介形类化石对地质年代的确定、古湖泊和古海洋的研究、古环境的重建以及海底石油资源的勘探等工作都具有重要意义。然而，现有识别化石颗粒的方法费时费力，准确率也有待提高。鉴于介形类化石颗粒的类别具有科、属、种的层次结构，种类数量庞大，所以笔者等提出了一种层次化识别方法。首先进行目标检测，实现介形类化石的定位与属类划分；之后在目标检测模块的基础上进行智能识别，使用卷积神经网络和支持向量机提取属类下更细微的种类特征，实现化石种类划分。实验结果表明，笔者等提出的分层次识别模型能检测出化石图像中所有化石颗粒的位置信息并对其进行分类，分类准确率可达95%，且相较于未进行分层次识别的模型，能将识别准确率提升1.8%～5.8%。

介形类是隶属于节肢动物门甲壳动物亚门介形纲的一种小型水生动物，其广泛分布在各种水域中。介形虫的地理分布很广，自然界的各种水体，包括海水和各种类型的大陆水体中，以底栖类群最常见(郝诒纯和茅绍智, 1989)。早在1991年，介形类研究人员Morin和Cohen(1991)得出结论，当时世界现存介形类约20000种、已报道的现生介形类约8000多种，其中大多数为海洋种，少数为淡水种。侯祐堂(2002)总结了我国发现的介形亚纲速足亚目浪花介超科和平足亚目小花介科化石属种,共分类整理,描述介形类219属1334种,并讨论了它们在中新生代的时空分布、演变、生活环境和古生物地理分区等。介形类时空分布的广泛性和对环境响应的敏感性、独特性，使之成为探讨生物与环境过程的重要研究载体。同时介形类化石种类繁多，其对地质年代的确定、古环境的重建以及海底石油资源的勘探都具有重要意义(中国大百科全书《生物学》编委会，1991)。例如，在海相地层中，根据介形虫的地方性或区域性的生物分带可用作古海岸线、古盐度及相对海深等的标志(郝诒纯和茅绍智, 1989)。在陆相地层中介形虫可以分为很多组合，具有重要的地层学意义。杨仁泉(2001)对采于河北邯郸峰峰煤矿义井一带石千峰组的介形类化石进行研究，发现其主要以Darwinula和Panxiania为主，最后认定河北太行山东麓一带石千峰组的地质时代应为晚二叠世。在石油勘探中，正确分析介形类化石在地层中的分布规律，对于细分地层，尤其是盆地内进行区域地层对比有着十分重要的意义。同时对地下岩石状况的分析也有助于判断出油情况(林文和陈学佺，1992)。

虽然古生物化石识别，尤其是介形类化石识别，作为古生物研究的重要步骤，长期以来都是古生物领域的热点研究课题，但研究人员目前对介形类的识别往往是根据其化石壳体形状以及壳体上的某些构造(如壳面装饰、肌痕、边缘毛细管带等)进行人工分类鉴定。由于介形类化石体积小、数量大、品种多等特点，依靠人工的化石鉴定方法复杂且耗时，无法满足实际应用需求。因此，化石识别的智能化是古生物研究不可阻挡的趋势。

现有的化石鉴定所采用的方法主要有3种：以推理为主的专家系统、多元统计分析和人工神经网络。专家系统(Expert System)是具备某个应用领域专家级知识和经验的智能计算机程序，该程序能模拟专家的思维作出决定，从而得到智能识别的效果。国外研究人员尝试开发化石鉴定专家系统(Riedel，1989；Brough and Alexander，2010)，如 VIDES (the Visual Identification Expert System)系统(Swaby，1990，1992；Athersuch et al., 1994)，用户需要自己观察化石特征属性，并选择系统所提供的特征选项，系统将根据用户选择的特征选项给出判断结果。同期，国内学者王益锋等(1988)将计算机自动推理功能和谓词公式结合，首次将人工智能应用于古生物化石归类。曾勇等(2000)利用人机对话获得的专家知识建立化石分类决策树，根据决策树建立规则库。专家系统相对于人工鉴定方法有一定的效率提升，但此类程序更像是化石检索表，识别过程需要人为干预，计算机并没有实现自动鉴定的功能。

多元统计分析(multivariate statistical analysis) 是将化石的定性特征转化为定量特征，运用多元统计的方法对数据进行整理归类和解释的研究方法。国外学者Burke等(1987)对化石图像轮廓进行傅立叶形状分析，使用SPSS统计软件对傅立叶级数进行主成分分析，构造判别函数，实现介形类化石的自动识别；Charles(2011)使用 logistic 算法、支持向量机、决策树、KNN和朴素贝叶斯算法等十余个最常用的分类器自动识别图像中的单一完整的孢粉粒子，并得到不错的准确率。国内研究人员也将多元统计分析用于化石自动鉴定工作。李酉兴(1982a，b)根据特征向量间的欧式距离和相似系数，利用聚类算法将华南弓石燕和华南竹节石分类。徐涵秋(1987)改进原古生物化石微机鉴定系统，按照化石不同形态特征的重要性赋予不同的权重，根据化石特征数据的相似度给出化石鉴定结果。多元统计方法相对于专家系统来说有很大程度的智能化提升，但此类技术不具有通用性，每种算法只能针对单一物种识别，当对多物种进行识别时，方法的复杂度大大提升，适应性和灵活性不高。

人工神经网络(Artificial Neural Networks)是指大量类似生物神经细胞的处理单元所组成的网络。早期的Dollfus等(1999)和 Beaufort 等(2004)采用多层并行神经网络开发了颗石藻自动鉴定系统 SYRACO，几乎可以识别视野中的所有颗石藻个体，准确率高达 96%。 Bollmann等(2002，2004)使用卷积人工神经网络开发了超微化石鉴定系统 COGNIS，系统连接电子显微镜鉴定多物种时，取得了良好的效果。国内研究人员林文等(1992)使用改进的Hopfield人工神经网络模型识别介形类化石；徐卉清等(2018)将卷积神经网络VGG16运用到9种化石图像分类中，验证集平均分类准确率可到达70%；岳翔等(2019)在一个三分类数据集上实验了VGG16模型和GoogLeNet模型，识别率准确度为85%。从在早期的工作中可以看出，人工神经网络相比于多元统计分析方法在特征学习方面更具有智能性，且能对多个物体进行识别，适用性与灵活性更强。但古生物化石的类别具有层次化特点：科、属、种，种类繁多且某些种类非常相似，现有的相关人工神经网络工作实验结果表明，未考虑化石类别特点的一步识别方法，其准确率在70%～85%，难以为后续的古生物研究工作提供可靠支持。同时，现有方法不能处理单张图像多个化石颗粒目标的情况。

笔者等结合目前深度神经网络在识别任务上的优势，针对介形类化石类别繁多、类别之间差异小的特点，提出层次化识别方法，按照属、种的结构分层次地逐步进行化石分类识别。首先对原始介形类化石图像进行图像预处理和数据增强，以此增强化石图像特征、增加样本数量和提高模型的鲁棒性；之后使用目标检测技术实现介形类化石颗粒的定位，对目标区域进行裁剪，减少图像背景信息对后续种类识别的影响。且基于层次化识别方法以及样本数量和类别数目不平衡的问题，目标检测仅进行化石的属类划分，保证属类划分的准确性，为后续处理提供属类识别结果。最后使用基于ImageNet的图像分类预训练模型提取种类间的化石图像特征，采用支持向量机(SVM，Support Vector Machine)进行化石的种类划分。同时，使用图像预处理方法和预训练模型能有效避免深度学习模型因数据集小而出现的过拟合问题。实验结果表明，笔者等提出的分层次识别模型能处理单张图像中包含多个化石颗粒的情况，且相较于目标检测算法能将识别准确率提升1.8%～5.8%，由此证明，分层次识别模型能将古生物化石识别准确率进一步提升。

1 材料和数据分析

在本研究中，介形类微体化石提取主要步骤(陈亮等，2019)包括取样、预处理、湿筛、烘干、干筛、挑样及鉴定与统计。具体操作如下：①将页岩粉碎成颗粒；②将颗粒放入容器中,先用双氧水与碳酸钠混合溶液预处理,过滤后加水加热；③待沉积物散开后,用筛网过筛，再用自来水反复冲洗筛中沉积物；④对获得湿筛的后沉积物样本进行烘干、干筛、挑样。

准备好介形类化石样本后，将样本放于显微镜下采集微观图像，并由专家对图像进行鉴定，对图片进行种类标注。本文的样本包含3个属类：东营介、小豆介、瓜星介；4个种类：花瘤东营介、双球脊东营介、广饶小豆介、近指纹瓜星介。这四类介形类化石的部分图像如图1所示，其中每一行图像为同一个介形类化石的不同角度(背视、腹视、右视、右视后部、左视、左视后部)的样本。本文数据集中背视、腹视、右视、左视样本的比例尺均为1 mm，右视后部、左视后部样本的比例尺均为500 μm。四类介形类化石样本图像共采集了657张，其中花瘤东营介172张、双球脊东营介150张、广饶小豆介184张、近指纹瓜星介151张。经过调研和分析该样本数据集，发现如下问题：①样本数量少，类别多，容易造成模型过拟合；②样本类间差异小，且由于拍摄角度的不同造成了同一类别间特征有差异，简单的一步识别方法难以保证结果的准确性。针对问题一，使用图像预处理方法扩充数据集，且使用预训练模型保证模型能被充分训练；针对问题二，考虑到古生物化石是科、属、种结构化的分类，因此笔者等采用层次化识别方法以保证识别效果。

图1 四类介形类化石图像样本示例Fig. 1 Image samples of 4 kinds of ostracod fossils(a)花瘤东营介；(b) 双球脊东营介；(c) 广饶小豆介；(d) 近指纹瓜星介(a)Dongyingia florinodosa；(b) Dongyingia biglobicostata；(c) Phacocypris guangraoensis；(d) Berocypris substriata

2 方法

本文提出的层次化识别方法，模型如图1所示，分为预处理、目标检测、智能识别3个部分。预处理模块对原始化石图像进行预处理和数据增强目标检测模块，用于实现介形类化石的定位与属类划分；而后是智能识别模块，即在目标检测模块的基础上，使用卷积神经网络和支持向量机，实现化石种类划分。

2.1 预处理

经分析样本数据集后发现，介形类化石颗粒基本都出现在图像的正中、左侧、右侧；采集条件的限制、化石自身的颜色和拍摄背景颜色造成图像亮度普遍偏低和局部阴影，导致介形类化石颗粒细节、轮廓不明显。由于介形类化石图像的质量会直接影响识别准确率的精度，因此首先需要对样本图片进行预处理。预处理主要目的是规范化石图像的输入、减少图中的无关信息、加强和突出介形类化石图像的特征，以便神经网络进行识别和分析。同时，预处理也可达到扩充数据集的效果，加强了训练样本的多样性，使得训练模型能学习到更加丰富的介形类化石图像特征，其鲁棒性和泛化能力得到提高。

在本文中，随机地对样本分别采用亮度对比度增强、锐化等预处理操作；采用旋转、平移和翻转的数据增强操作。图2a是原始介形类化石图片，图2b、图2c、图2d和图2e是分别对原始图像做亮度对比度增强、锐化、平移和旋转的结果，它们为模型提供了丰富的介形类化石图像信息。图2b中化石颗粒目标明显；图2c中化石轮廓及细节更加清晰；图2d和图2e中化石颗粒位置多变，从而降低模型对目标位置和角度的敏感度。

图2 层次化识别模型Fig. 2 Hierarchical recognition model

2.2 介形类化石定位和检测

在目标检测领域，目前已有的算法主要分为两阶段目标检测算法和单阶段目标检测算法。前者代表算法有RCNN、Fast R-CNN和Faster R-CNN等；后者代表网络有SSD、YOLO系列算法。为验证哪一类目标检测网络更适合本文的任务，我们从两类目标检测算法中分别选择出目前表现最好的网络：Faster R-CNN和YOLOv5，并将其应用到本文的数据集上。

2.2.1FasterR-CNN

Faster R-CNN算法(Ren Shaoqing et al., 2017)整体框架包括4个部分(图3)：

图3 介形类化石原始图像以及预处理结果Fig. 3 The original images of ostracods and the results of preprocessing

(1)特征提取网络。该部分由一组基础卷积层、Relu层和池化层组成，自适应地学习图像中的纹理、组合等特征，得到特征图，并被共享于后续的候选区域生成网络(RPN, Region Proposal Network)和感兴趣区域池化部分(ROI Pooling)。如图3所示，大小为P×Q的原始介形类化石图像调整为M×N，图3a所示，本实验选用VGG16(Simonyan and Zisserman，2014)作为特征提取网络。

(2)候选区域生成网络。该部分如图3b所示，由一个3×3卷积和两个并列的1×1卷积分支组成，输入为共享特征图，输出是候选区域 (Region Proposal)即图像中的初步目标检测框。使用3×3卷积操作进一步提取图像的特征。在特征图上存在大量的锚框(人为设定好位置和大小的矩形框)，它们可能并不与真实框完全重合，所以锚框的位置需要修正。两个并列的1×1卷积分支分别对锚框进行二分类和初步的位置修正。上分支中1×1卷积和Softmax对锚框进行正样本(包含物体的锚框)和负样本(不包含物体的锚框)的类别分类，其中的两个Reshape层是为了方便Softmax分类，对特征变量做维度改变。下分支的1×1卷积用于计算锚框相对于真实框的偏移量。在锚框的基础上，结合分类结果和偏移量得到候选区域。

(3)感兴趣区域池化。如图3c所示，该部分只有一个池化层，输入是共享特征图和候选区域，输出是大小相同的感兴趣区域(ROI, Region of Interesting)。根据共享特征图和候选区域的位置映射关系，得到每个候选区域在特征图上对应区域的特征图部分，即感兴趣区域。由于后续的分类器的输入尺寸需要统一，所以采用最大池化操作将感兴趣区域调整到指定大小。

(4)预测。如图3d所示，输入是感兴趣区域，输出是最终目标检测框的类别和坐标值。首先前两个全连接层对特征做整合，其次在上分支中通过全连接层与L2范数损失函数，如公式(1)所示：计算每个候选区域的偏移量，再反向更新，迭代网络参数，得到最终的检测框坐标值。在下分支中通过全连接层与Softax计算每个感兴趣区域的具体类别并输出每个类别的概率。

(1)

2.2.2YOLOv5

该网络由Alexey Bochkovskiy在2020年提出，是YOLO系列的最新结构。YOLOv5网络一共有4个版本：YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。它们的网络结构都可以分为4个部分：输入、特征提取网络、特征处理、分类和定位，唯一区别是网络深度和宽度。其中YOLOv5s是深度最小、特征图宽度最小的网络，考虑本文到所用数据集偏小，选用YOLOv5s，其网络结构如图4所示：

图4 Faster R-CNN网络结构Fig. 4 Faster R-CNN structure

(1)输入。为适用于不同类型的数据集，YOLOv5s的输入部分会对输入数据采取自适应锚框计算、自适应图片缩放的操作。输入部分会采用K均值聚类算法(k-means)和遗传学习算法，对自定义数据集中的人工标注的真实框进行分析，生成适合自定义数据集的最佳锚框值。

在常用的目标检测算法中，会将输入图片缩放填充到统一大小再送入检测网络，但缩放填充后图片两端的黑边大小不同。如果填充较多，则存在信息冗余，影响推理速度，所以YOLOv5s在推理阶段对原图像自适应地填充最少的黑边，但在训练阶段仍采用传统填充的方式。

(2)特征提取网络。如图4b所示，该部分由Focus、CBL、CSP1_X、SPP构成，自适应地学习图像中的纹理、组合等特征，得到特征图。Focus结构如图5c所示，利用切片、拼接操作将大小为W×H×3的特征图变成W/2×H/2×12，再经过模块CBL(图5a)得到W/2×H/2×32大小的特征图。Focus的作用类似下采样，虽然增加了计算量，但它将宽、高维度的信息集中到通道维度上，为后续的特征提取保留了更完整的图像下采样信息。CSP1_X结构借鉴CSPNet(Cross Stage Partial Network)(Wang et al, 2020)，如图5d所示，包含若干卷积层和残差层，其中X表示残差模块(图5b)的个数。在网络层数较深的特征提取网络中添加残差结构可以避免因层数加深而带来的梯度消失，从而提取到更细粒度的特征。如图5e所示，SPP结构借鉴传统的SPP(Spatial Pyramid Pooling)(He Kaiming，2014)，由4个并行的分支构成，分别是核大小为 5×5, 9×9, 13×13的最大池化和一个跳跃连接，这样的结构使得输出特征图对区域的敏感性不同但大小尺寸相同，实现了局部特征和全局特征的融合，丰富了特征图的表达能力。

(3)特征处理。该模块如图4c所示，对从特征提取网络部分得到的特征做进一步的融合，同时提取出语义信息和定位信息。特征融合结构使用FPN(Feature Pyramid Network)(Lin Zongyi et al., 2017)和PAN(Path Aggregation Network)(Liu Shu et al., 2018)。使用CSP2_X加强网络融合的能力，和CSP1_X的区别在于无残差结构，结构如图5f所示。如图4中红色虚线路径所示，FPN通过上采样的方式分别融合大小为76×76、38×38和19×19的特征图，传达强语义特征；如图4中蓝色虚线路径所示，PAN通过下采样的方分别融合大小为76×76、38×38和19×19的特征图，传达定位特征，且特征融合处用拼接代替了原PAN中的相加操作。在FPN中，大量的浅层特征信息通过多个网络层传递到达顶层后会被丢失，所以在其后添加PAN来缓解信息丢失，建立高低层特征之间的信息路径，从而增强整个特征层次架构。

图5 YOLOv5s网络结构(据江大白， 2021)Fig. 5 YOLOv5s structure(from Jang Dabai, 2021&)

(4)分类和定位。该模块如图4d所示，综合之前得到的图像特征，分别根据大小为76×76、38×38、19×19的特征图做出预测，最终得到3组输出向量，其大小分别为76×76×24、38×38×24、19×19×24，其中24 =每组锚框的尺寸数量×(类别数量+检测框置信度得分+ 4个检测框坐标值)。在本次实验中，每组锚框有3种尺寸，类别数量为3。分类损失采用BCE Loss，边界框回归损失采用GIoU Loss(Rezatofighi et al., 2019)。BCE Loss公式分别如公式(2)所示，其中Wi表示权重，Xi表示预测的类别概率，Yi表示真实标签。

LBCE=-Wi[YilgXi+(1-Yi)lg(1-Xi)]

(2)

GIoU Loss如公式(3)、公式(4)所示。GIoU是用来衡量预测框和真实框重合程度的一个标准。公式(4)中A、B分别表示预测框、真实框，AC表示能把A、B包含在内的最小矩形框，该公式先计算矩形框AC中不包含A、B的面积占总面积的比值，再用A、B的交并比(IoU)减去该比值。

图6 YOLOv5s网络组件(据江大白，2021)Fig. 6 The components of YOLOv5s(from Jiang Dabai，2021&)

LGIoU=1-GIoU

(3)

(4)

根据最终的目标检测结果中的边界框的坐标值，将整张介形类化石图像裁剪成单个介形类化石颗粒图像，分别送入后文的智能识别模块中。如图7所示，比例尺为1 mm的花瘤东营介端视样本的结果，(a)为检测结果，(b)为裁剪结果。目标检测模块对化石目标进行框选定位、对属类进行划分并对框选结果进行裁剪。

2.3 介形类化石智能识别

根据前文分析，古生物化石分类具有科、属、种的层次结构，且种类间差异较小，使用分层次识别的方法能够在一阶段的的目标检测方法的基础上，对具体的种类进行划分，能进一步提高准确度。在本节中，将使用GoogLeNet(Szegedy et al., 2014)结合支持向量机的方法，对每个属类做具体的种类划分，达到分层次识别的效果。不同于目标检测时注重化石位置信息与属间特征，智能识别模块将更注重于种类间的特征，这些特征往往更加细节、抽象，故本文使用卷积神经网络提取图像特征。

GoogLeNet网络主要由Inception模块组成，Inception模块的提出是深度学习网络模型第一次在考虑加深网络深度的同时还考虑拓宽网络的宽度，同时从网络的深度和宽度两个方面对深度学习网络进行性能提升，并取得不错的效果。Inceptionv1模块如图7所示，其借鉴了Network in Network(Lin Min et al., 2013)的思想，在网络中引入大量的1×1卷积，能起到数据降维的作用，这样确保了网络在拓展宽度和深度的同时参数量得到一定的控制，并且为网络模型引入更多的非线性，提高模型泛化能力。

图7 目标检测结果和裁剪结果Fig. 7 The results of object detecting and cropping

在InceptionV1的基础上，InceptionV2(Ioffe，2015)提出批归一化(BN, Batch Normalization)的思想。批归一化通过公式(5)，对网络的某一层进行归一化处理。其中E[x(k)]指在一批数据中，各神经元的平均值，Var(x(k))指在一批训练数据时各神经元输入值的标准差。为了不破坏上一层网络所学习的特征，提出了变换重构，引入可学习参数γ和β，如公式(6)所示。

(5)

(6)

每个神经元x(k)都有这样一对参数γ和β，当γ=E[x(k)]、β=Var(x(k))时就可以恢复出原始的某一层所学到的特征。InceptionV2引入批归一化的思想，使得在模型训练时可以设置较大的初始学习率，减少参数初始化的依赖，提高训练速度，并且能防止网络出现梯度弥散。

InceptionV3(Szegedy，2016)在前者的基础上提出使用两个级联的3×3卷积来代替一个5×5卷积的方法来降低网络的计算量。在InceptionV3中，InceptionV1模块将会被替换成如图8所示。

图8 InceptionV1网络结构Fig. 8 The structure of InceptionV1

将InceptionV3模块所提取出的特征送入分类器，使用RBF核函数的SVM分类器对每个属类进行种类划分。介形类化石智能识别模块的总体框架如图9所示。

图9 InceptionV3网络结构Fig. 9 The structure of InceptionV3

图10 介形类化石智能识别Fig. 10 The intelligent recognition of ostracods

3 实验结果

本文的介形类化石图像智能识别实验所使用的操作系统为64位Windows 10、编译软件为Pycharm、GPU为 NVIDIA GeForce 2080 Ti、深度学习框架为Pytorch。

本文的介形类化石图片，经专家鉴定和整理、剔除不确定种类的图像，共采集657张样本，其中同一介形类化石分别会有背视、腹视、右视、右视后部、左视、左视后部角度的样本。由于样本数据集包括化石颗粒不同角度的图片，使得模型可以学习到化石不同角度的特征，因此在后续的鉴定中，提供介形类化石任意角度(背、腹、左、右、左后和右后)的样本图片，模型都可以对其进行识别。

按照8∶2的比例划分原始数据集。训练集的图像样本使用数据增强，并将其用于模型的训练，测试集单独用于最终训练得出模型的准确率。

3.1 定位和检测

为对比Faster R-CNN和Yolo v5在目标检测任务上的效果，在训练时，两个网络使用相同的训练集和验证集，训练的轮数在保证网络收敛但不拟合的前提下保持一致。在测试网络时使用相同的测试集，将检测准确率作为我们评价两种网络结构的依据。准确率计算公式如公式(7)所示：

(7)

两个网络的识别结果如表1所示，可以看出Faster R-CNN每个属类的平均识别准确率和所有属类的平均识别准确率都高于YOLOv5s的检测结果，后者比YOLOv5s的结果高23.89%。正如预期的一样，东营介属类的识别效果最佳，因为该类别样本数量最多，模型能够很好地针对该类进行训练。瓜星介识别效果最差，猜测可能是该类样本数量少，网络不能很好地提取到图像特征。

表1 Faster R-CNN与YOLOv5s检测准确率对比Table 1 The comparison of detection accuracy between Faster R-CNN and YOLOv5s

为了比较两个网络的定位结果，本文从测试集中随机选择了3张图，以展示两种网络结构分别在东营介、瓜星介、小豆介化石图像上的检测结果，东营介、瓜星介样本比例尺为1 mm，小豆介样本比例尺为500 μm。如图11所示，第一列为真实标签(人工标注)、第二列为Faster R-CNN检测结果、第三列为YOLOv5s检测结果，其中整数1、2、3代表预测的介形类化石的属类：东营介、小豆介、瓜星介，小数表示预测类别的准确率。对于第一张图，YOLOv5s出现了漏检但Faster R-CNN仍然检测到目标，且识别正确；对于第二张图，两者均出现了识别错误的情况；对于第三张图，Faster R-CNN识别准确率比YOLOv5s检测结果高49%。

图11 检测效果对比Fig. 11 The comparison of accuracy

测试集的结果表明，Faster R-CNN对介形类化石的定位和识别效果更好，因此本文的目标检测模块采用Faster R-CNN。

3.2 智能识别

笔者等在目标检测所裁剪出的单个化石图像基础上(即已知古生物化石属类)，选择了几个较为常用的卷积神经网络，对化石种类进行细分，实验结果如表2所示，其中准确率是在正确划分古生物化石属类的基础上计算得来的种类的准确率结果。由上表的结果可以发现直接使用预训练模型加支持向量机的分类方法，DensNet121和InceptionV3均可达到88%，相比与VGG16和Xception的结果相对更好，我们又对DensNet121和InceptionV3进行微调，即将网络的全联接层换成自定义的全联接层，并将其输出送入SVM进行分类，得到如表3所示的结果。

表2 介形类化石智能识别对比实验Table 2 The comparative experiment of ostracod fossils intelligent recognition

表3 微调后模型分类准确度Table 3 The Classification accuracy of models by fine-tuning

以上对比实验证明，InceptionV3结合SVM的方法在数据集上能达到较为理想的准确度。

3.3 层次化识别效果证明

为了证明本文提出的分层次识别算法的准确度较直接使用目标检测算法进行一步识别的优势，将使用分层次识别的结果与未使用分层次识别的结果进行对比(表4)。

表4 分层次识别结果Table 4 Hierarchical recognition results

表中将直接使用目标检测算法对古生物化石的识别结果，与本文提出的分层次识别模型结果进行对比，实验结果表明，本文提出的分层次识别模型相较于目标检测算法能将识别准确率提升1.8%～5.8%，由此证明分层次识别模型能将古生物化石识别准确率进一步提升。

4 结论

由于介形类化石体积小，表面粗糙，部分化石有破损，识别比较困难，若采用传统特征分析的方法，则需要广泛地描述样本的特征，经过繁琐的步骤才能得出识别结果，而对于有缺损的或形状相近的则难以正确识别。本文提出的方法其预处理部分可以增强图像物种的古生物学特征，分层次识别算法能针对介形类化石的特点分别进行属类和种类识别，以保证对介形类化石图像能达到较好的识别效果。本文方法的总体准确率达到95%，证实了基于深度学习的计算机视觉方法在古生物研究方面的可行性及应用前景。同时，本文提出的方法不需要对图像进行人工分析，计算机直接通过学习自动获得古生物图像特征的描述，并进行自动分类，充分利用了计算机的主动学习特性。在未来的研究工作中，我们将进一步完善介形类化石数据库，扩充数据样本和类别，以此提高模型的识别精度、泛化性和适用性。并基于本模型开发介形类化石智能识别系统，提高介形类化石鉴定工作的效率。

(The literature whose publishing year followed by a “&” is in Chinese with English abstract; The literature whose publishing year followed by a “#” is in Chinese without English abstract)

陈亮, 唐振平, 刘江, 谢焱石, 王正庆, 刘珊, 黄伟, 胡杨, 冯志刚. 2019. 从黑色页岩中提取介形类微体化石的方法, CN106006655B.

侯祜堂. 2002. 中国介形类化石. 北京: 科学出版社: 12～15.郝诒纯, 茅绍智. 1989. 微体古生物学教. 武汉: 中国地质大学出版社: 44～63..

江大白. 2021. 深入浅出Yolo系列之Yolov5核心基础知识完整讲解[Z/OL]. (2021-06-03)[2021-06-12]. https://zhuanlan.zhihu.com/p/172121380

李酉兴. 1982a. 用电子计算机鉴定华南弓石燕和一些竹节石化石. 中南大学学报(自然科学版), 34(4): 122～128.

李酉兴. 1982b. Z-80B1/2 机鉴定化石程序. 桂林工学院学报, 2(4): 88～95.

林文, 陈学佺. 1992. 用于介形类化石识别及岩芯分析的人工神经网络方法. 中国科学技术大学无线电电子学系, 22(1): 95～99.

王益锋, 张逸昆. 1988. 人工智能原理在古生物化石归类中的应用. 古生物学报, 27(4): 521～525.

徐涵秋. 1987. 微型电子计算机在(竹蜓)类化石鉴定中的应用. 微体古生物学报, 4(1): 103～110.

徐涵秋. 1991. (竹蜓)类化石同物异名问题的微机定量研究——模糊数学在古生物化石研究中的应用. 中国科学(B辑), 21(1): 90～101.

徐卉清, 樊隽轩, 杨娇, 胡云峰. 2018. 应用卷积神经网络进行化石图像分类. 中国古生物学会第十二次全国会员代表大会暨第29届学术年会论文摘要集.

杨仁泉. 2001. 河北太行山东麓晚二叠世陆相介形类化石组合及其地层意义. 中国古生物学会第21届学术年会.

岳翔, 呼和, 贾建忠. 2019. 一种基于深度学习的有孔虫化石识别方法. 电脑知识与技术, 15(27): 179～184.

中国大百科全书《生物学》编委会. 1991. 中国大百科全书: 生物学. 北京: 中国大百科全书出版社: 733～734.

曾勇, 屈永华. 2000. 化石鉴定专家系统中具学习功能决策树的研究与实现. 地质论评, 46(s1): 208～211.

Athersuch J, Banner F T, Higgins A C, Howarth R J, Swaby P A. 1994. The application of expert systems to the identification and use of microfossils in the petroleum industry. Mathematical Geology, 26(4): 483～489.

Beaufort L, Dollfus D. 2004. Automatic recognition of coccoliths by dynamical neural networks. Marine Micropaleontology, 51(1～2): 57～73.

Bollmann J, Corte′s M Y, Haidar A T, Brabec B, Thierstein H R. 2002. Techniques for quantitative analyses of calcareous marine phytoplankton. Marine Micropaleontology, 44(3): 163～185.

Bollmann J, Quinn P S, Vela M, Brabec B, Brechner S, Corte′s M Y, Hilbrecht H, Schmidt D N, Schiebel R. 2004. Automated particle analysis: calcareous microfossils. In P. Francus (Ed.). Image Analysis, Sediments and Paleoenvironments. Dordrecht: Kluwer Academic Publisher: 229～252.

Brough D R, Alexander I F. 2010. The fossil expert system. Expert Systems, 3(2): 76～83.

Burke C D, Full W E and Gernant R E. 1987. Recognition of fossil freshwater ostracodes——Fourier shape analysis. Lethaia, 20(4): 307～314.

Charles J. 2011. Automatic recognition of complete palynomorphs in digital images. Machine Vision and Applications, 22(1): 53～60.

Chen Liang, Tang Zhenping, Liu Jiang, Xie Yanshi, Wang Zhengqing, Liu Shan, Huang Wei, Hu Yang, Feng Zhigang. 2019#. Method for extracting ostracod microfossils from black shale:, CN106006655B.

China Encyclopedia "Biology" Editorial Board. 1991#. China Encyclopedia: Biology. Beijing: China Encyclopedia Press: 733～734.

Dollfus D, Beaufort L. 1999. Fat neural network for recognition of position-normalised objects. Neural Networks, 12(3): 553～560.

Hao Yichun, Mao Shaozhi. 1989. Micro-Palaeontology Course. Wuhan: China University of Geosciences Press: 44～63.

He Kaiming, Zhang Xiangyu, Ren Shaoqing, Sun Jian. 2014#. Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE Transactions on Pattern Analysis & Machine Intelligence, 37(9): 1904～1916.

Hou Hutang. 2002#. Ostracod Fossils in China. Beijing: Science Press: 12～15.

Ioffe S, Szegedy C. 2015. Batch normalization: Accelerating deep network training by reducing internal covariate shift. Journal of Machine Learning Research, (37): 448～456.

Jiang Dabai. 2021. A complete explanation of the core basic knowledge of Yolov5 in the Yolo series [Z/OL].(2021-06-03)[2021-06-12]#. https://zhuanlan.zhihu.com/p/172121380

Li Youxing. 1982a&. Identification of South China Gongshiyan and some bamboo joint fossils by computer. Journal of Central South University (Natural Science Edition), 34(4): 122～128.

Li Youxing. 1982b&. Z-80B1/2 Computerized fossil identification program. Journal of Guilin Institute of Technology, 2(4): 88～95.

Lin Min, Chen Qiang, Yan Shuicheng. 2013. Network in network. Computer Science.

Lin Wen, Chen Xuequan. 1992&. Artificial neural network method for ostracod fossil identification and core analysis. Department of Radioelectronics, University of Science and Technology of China, 22(1): 95～99.

Lin Zongyi, Dollar P, Girshick R, He Kaiming, Hariharan B, Belongie S. 2017. Feature pyramid networks for object detection// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE Computer Society: 936～944.

Liu Shu , Qi Lu, Qin Haifang, Shi Jiaping, Jia Jiaya. 2018. Path aggregation network for instance segmentation. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR): 8759～8768.

Morin, J G, Cohen A C. 1991. Bioluminescent displays, courtship and reproduction in ostracodes. Crustacean Sexual Biology: 1～16.

Riedel W R. 1989. Identify: A prolog program to help identify fossils. Computers & Geosciences, 15(5): 809～823.

Ren Shaoqing, He Kaiming, Girshick R, Sun Jian. 2017. Faster R-CNN: Towards real-time object detection with region proposal networks. IEEE Transactions on Pattern Analysis & Machine Intelligence, 39(6): 1137～1149.

Rezatofighi H, Tsoi N , Gwak J Y, Sadeghian A, Savarese S. 2019. Generalized intersection over union: a metric and a loss for bounding box regression// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE.

Szegedy C, Liu Wei, Jia Yangqing, Sermanet P, Rabinovich A. 2014. Going deeper with convolutions. IEEE Computer Society.

Szegedy C, Vanhoucke V, Ioffe S, Shlens J, Wojna Z. 2016. Rethinking the inception architecture for computer vision. IEEE, 2818～2826.

Swaby P A. 1990. Integrating artificial intelligence and graphics in a tool for microfossil identification for use in the petroleum Industry. Proceedings of the 2nd Annual Conference on Innovative Applications of Artificial Intelligence. Washington, 203～218.

Swaby P A. 1992. Vides: An expert system for visually identifying microfossils. IEEE Expert, 7(2): 36～42.

Simonyan K, Zisserman A. 2014. Very deep convolutional networks for large-scale image recognition. Computer Science.

Wang C Y, Bochkovskiy A, Liao H. 2020. Scaled-YOLOv4: Scaling Cross Stage Partial Network. arXiv:2011.08036

Wang Yifeng, Zhang Yikun. 1988&. Application of artificial intelligence principles in paleontological fossil classification. Chinese Journal of Paleontology, 27(4): 521～525.

Xu Hanqiu. 1987&. Application of microcomputer in identification of (Bamboo Fly) fossils. Chinese Journal of Micropaleontology, 4(1): 103～110.

Xu Huiqing, Fan Junxuan, Yang Jiao, Hu Yunfeng. 2018#. Application of Convolutional Neural Network in Fossil Image Classification// Abstracts of Papers of the Twelfth National Congress of the Chinese Society of Paleontology and the 29th Annual Academic Conference.

Yang Renquan. 2001. Late Permian terrestrial ostracod fossil assemblage and its stratigraphic significance on the eastern foot of Taihang Mountain, Hebei Province// The 21st Annual Academic Conference of the Chinese Society of Paleontology.

Yue Xiang, Hu He, Jia Jianzhong. 2019#. A method for identifying foraminifer fossils based on deep learning. Computer Knowledge and Technology.

Zeng Yong, Qu Yonghua. 2000&. Research and implementation of decision tree with learning function in fossil identification expert system. Geological Review, 46(s1): 208～211.