基于深度学习实现维吾尔族青少年左手腕关节骨龄自动化评估

2018-03-30 03:03胡婷鸿刘太昂汪茂文王亚辉
法医学杂志 2018年1期
关键词:骨龄腕关节准确率

胡婷鸿 ,火 忠 ,刘太昂 ,王 飞 ,万 雷 ,汪茂文 ,陈 腾 ,王亚辉

(1.司法鉴定科学研究院 上海市法医学重点实验室 上海市司法鉴定专业技术服务平台,上海 200063;2.西安交通大学医学部法医学院,陕西 西安 710061;3.新疆维吾尔自治区人民医院,新疆 乌鲁木齐 830000;4.上海帆阳信息科技有限公司,上海 200444)

人体骨骼随生长周期呈现连续性与阶段性的发育特征,决定了骨骼的生物学年龄可以反映个体的生活年龄。我国传统骨龄评估技术主要依据人工读取骨关节在X线片中所反映的骨骼发育程度获取个体骨骼年龄,以用于临床个体发育调查、运动员选材以及刑事案件中涉及青少年犯罪嫌疑人的定罪量刑等。但是,人工读片存在耗时长、技术要求高、不同读片者评估结果不尽相同等局限,从而影响了骨龄鉴定意见的有效性和准确性。为改善或解决上述问题,20世纪末至21世纪初,随着计算机硬件设备以及图像数字化处理技术的发展,国内外学者针对X线骨龄评估提出计算机辅助评估系统[1-4]。2014年,王亚辉等[5]运用浅层监督学习算法-支持向量机(support vector machine,SVM),通过核函数处理骨骼数字X射线摄影(digital radiography,DR)图像特征信息与骨骺发育分级之间非线性对应关系表达,实现骨骺发育分级自动化评估。SVM[6]为基于统计学习理论的模式识别算法,适用于小样本数据信息挖掘,但其利用人工经验获取局部样本特征过程中必然伴随图像机器识别信息丢失,对样本种类高度依赖的特性导致局限泛化能力,对复杂函数处理能力有限,且小样本数据同样暗示不能挖掘更复杂骨骼结构内部信息。

机器学习是人工智能的一个分支,其通过算法使机器从大数据训练中学习规律,进而对新数据进行识别及预测。 深度学习(deep learning,DL)[7-8]属于一种机器学习,其基本结构是至少具备一个隐含层的深度神经网络,近年在图像识别方面取得很大成就[9]。尤其是卷积神经网络(convolutional neural network,CNN),可以至少在网络的一层中使用卷积运算来替代一般的矩阵乘法运算的神经网络[10],目前已成功应用于众多其他医学图像识别领域中,如有丝分裂图像识别[11]、肺斜裂结节检查[12]、皮肤癌[13]以及乳腺癌病理图像分类[14]等。2015年,LEE等[15]首次基于深度学习创建了网络模型“FingerNet”,用于腕关节DR图像中的指关节检测,但未实现骨龄评估。直到2017年,SPAMPINATO等[16]建立了自动化骨龄评估模型“BoNet”,手腕关节DR图像的深度学习与人工读片评估结果之间的平均绝对误差仅为0.79岁。随后,LEE等[17]同样选用左手腕关节DR图像为样本,提出一套能生成结构化放射学报告的全自动骨龄评估深度学习系统,实现了较好的评估准确率。近期,KIM等[18]将CNN作为人工读片的辅助工具进行研究,通过方法间的差异性比较得出,深度学习较人工读片的准确度有所提升,读片消耗时间显著减少。基于此,深度学习可较好地应用于骨龄评估,本研究拟采用深度学习对我国维吾尔族青少年左手腕关节DR图像进行骨龄自动化评估,并检验该自动化评估方法的准确性。

1 对象与方法

1.1 研究对象

本研究从新疆某医院放射科DR图像库中运用分层整群抽样方法采集了自2014年8月至2016年12月期间拍摄的维吾尔族13.0~20.0岁男、女性左手腕关节DR图像作为数据集,其中男性青少年245例、女性青少年227例。上述DR图像对应的真实个人年龄信息均源于其居民身份证或户籍资料。样本分布情况见表1。

表1 不同性别、不同年龄组人群分布(例)

纳入标准:采用马尔丁金属测量计、经校准的杠杆秤,分别测身高、体质量,并经新疆维吾尔自治区人民医院确认身体健康、营养状况良好的个体,其左手腕关节DR图像作为研究对象。

排除标准:参加特殊文艺、体育训练者,曾有服用影响骨骺发育药物史者,曾有影响骨骺发育疾病史或外伤史者。

本研究符合有关医学伦理法律条款规定。

在上述男、女性左手腕关节DR图像中分别随机选取70%的样本(男性172例,女性159例)作为训练集(其中60%样本作为网络训练集,10%样本作为验证集),用于模型训练、参数学习、自动微调连接参数及模型优化等。余下30%的样本(男性73例,女性68例)作为测试集,用于测试深度学习模型的识别及泛化能力,获取在不同年龄精度的图像识别准确率。

1.2 方法

1.2.1 图像预处理方法

本研究中骨骼是深度学习需要识别的主体。首先通过批量处理来滤除首饰穿戴及字符等影响因素,按图1所示的三个步骤进行图像预处理。

(1)去字符。通过灰度确定字符位置,并生成灰度为该图像灰度众数的圆点,以覆盖字符。

(2)二值化。选用经典的图像阈值分割算法,即OTSU算法[19],将需要分割的图像根据灰度不同分为前景和背景两个部分。前景即手及腕部,通过该算法得出分离这两部分的最佳阈值,也就是使类内方差最小,最终获得前景。我们在OTSU算法中根据图片的灰度值调整OTSU结果,使可能包含识别信息的组织像素点[17]也可被选出,效果如图2所示。

(3)图像分割。首先用二值化图像完全去除背景信息,分割出手及腕关节。然后通过求连通域中心及包含连通域最小方框的形式截取分割后的图像,使手及腕关节最大化,且位于图像相对中心的位置。

图1 图片预处理流程图

图2 调整OTSU前后的图像

1.2.2 CNN回归算法

(1)网络结构选择

选取AlexNet[20]作为图像识别回归模型,其网络结构包含八个带权层,前五层为卷积层,后三层为全连接层。最后一个全连接层采用分类器作为激活函数输出。同时,在每个卷积层后,都将上一层网络结构中的红、绿、蓝3个通道完成的图像识别输出结果进行归一化(batch normalization,BN)处理,使其均值为 0,方差为1。

(2)参数设置及算法优化

将用于一般图像训练之后的AlexNet预训练模型直接作为网络初始环境,其预训练参数,也相应地作为迁移学习[21]的初始参数。之后通过训练学习本研究样本来对其进行微调,用于DR图像分类。70%的样本会在每次训练过程中随机分为训练集与验证集。在用预训练的参数初始化网络后,输入60%的网络训练集,使用随机梯度下降法(stochastic gradient descent method,SGD)对网络普通参数进行训练,将训练次数设置为5000次,即迭代5000次,小批量数为32,动量值为0.9,参数以0.000 5的衰退值下降,以样本真实年龄标记作为模型训练的目标。每次训练之后输入余下的10%验证集,运用网格搜索算法[22]在手动指定的超参数空间中划分网格,按网格的每一个格点对应的参数设置网络并进行训练。最后,选择训练结果与验证学习结果准确度最匹配时所对应的最优参数作为网格搜索结果。常数k、n、α、β为修正线性单元(rectified linear unit,ReLU)激活函数公式中的超参数,根据验证集学习结果来确定其值分别设置为2、5、4~10 和 0.75。

经过上述训练过程,在确定最优的网络结构以及参数值之后,输入未参与训练学习的30%测试集样本得出预报年龄值,作为最终统计数据。

1.2.3 评估结果的统计方法

对于训练样本和测试集样本来说,图像进入深度学习网络中识别之后会得出预报年龄值,分别将训练集及测试集的预报年龄值与对应样本的真实年龄值相比。若差值的绝对值在1.0岁以内,我们视为误差范围在±1.0岁以内的吻合样本,将所有吻合样本数与训练样本数比值的百分数作为该误差范围的准确率。同样,若预报年龄值与真实年龄值差值的绝对值在0.7岁以内,我们将其视为误差范围在±0.7岁以内的吻合样本,采用上述同样的方法计算出±0.7岁误差范围的准确率。

2 结 果

表1 维吾尔族男、女性左手腕关节DR图像训练集深度学习骨龄结果

在深度学习网络训练和学习中,其图像识别准确率结果:男性误差范围在±1.0岁及±0.7岁的准确率分别为81.4%和75.6%;女性分别为80.5%和74.8%(表1)。

利用测试集检验深度学习模型的泛化能力,其预报准确率结果:73例男性与其真实年龄相比,误差范围在±1.0岁及±0.7岁以内的吻合样本数分别为58例、52例,准确率分别为79.5%和71.2%;68例女性与其真实年龄相比,误差范围在±1.0岁及±0.7岁以内的吻合样本数分别为54例、45例,准确率分别为79.4%和 66.2%(表2)。

表2 维吾尔族男、女性左手腕关节DR图像测试集深度学习骨龄结果

3 讨 论

在我国,目前对于少数民族青少年骨骼生长发育的基础数据尚不完整,少数民族青少年骨龄评估应当以该民族的研究样本及基础数据为准。另外,维吾尔族人群众多,且生活环境、饮食习惯都具有其独特的民族特性。基于这样的国情及背景,本研究将新疆维吾尔族青少年关节DR图像作为研究对象,开展维吾尔族青少年骨龄研究,旨在为维吾尔族青少年骨发育的研究提供基础资料和数据,尽可能客观地反映维吾尔族青少年骨骼发育的真实情况。此外,本研究还考虑到躯体多部位关节DR图像收集存在费用高、耗时长等局限,遂选用拍摄简单常见、继发骨化中心较多的手腕关节作为理想研究部位[16]。

在图像识别方面,人工阅片仅针对骨骺发育程度判断个体骨骼年龄,而深度学习是对于进入模型的整个图像进行识别,最大程度地提取图像中有价值的特征,防止信息丢失。深度学习与其他网络算法最大不同之处在于,其特征提取为自动学习过程,通过非监督式的学习方法逐层预训练自动学习获取样本特征,将下层浅层学习特征作为上一层输入得到更高级特征输出,最后通过监督学习方法自上而下进行微调训练使网络连接权值达到最佳,获得最终学习目的。此外,深度学习还有自我挖掘特性,部分人工感兴趣区域对深度学习来说并不一定是显著差别特征[23],这些发现说明,深度学习可能在识别差异性特征方面更为全面。

本研究基于上述理论基础进行设计推理。在我国新疆维吾尔自治区采集了13.0~19.0岁青少年左手腕关节DR图像,男、女性样本量分别为245例、227例。在部分DR图像中,手及腕部在位置、方向及灰度上有很大差异,且背景中含有大量字符,这些都会对网络算法自主学习图像特征产生影响。因此,通过图像处理过程统一图像规格,并去除因背景和图像质量差异而导致的噪声干扰,从而提高模型准确率。经过处理后,利用深度学习模型进行图像识别及参数调整,最终获取误差在±1.0岁以内训练集和测试集的准确率,来验证深度学习在骨龄评估中的可行性。经分析比对上述研究结果,我们选取了误差为±1.0岁训练集和测试集的准确率作为结果判定的一项指标,以适应我国《刑法》对14、16、18周岁青少年骨骼年龄鉴定的需求。为通过深度学习方法获得更为精准的骨龄评估结果,本研究综合考虑误差范围及结果准确率等拮抗因素,选取了误差范围为±0.7岁作为另一项结果判定指标,以此说明深度学习在青少年骨龄评估自动化过程中的现实意义,选取这一精度的目的旨在探索当要求误差范围更小的情况下骨龄评估准确率的高低,以此评估这一准确率是否适合用于当前的青少年骨龄鉴定。从本研究结果看出,同一性别误差范围为±1.0岁训练集和测试集的准确率稳定在80%左右,这也说明对于±1.0岁的精度要求,模型的计算结果是趋于稳定的。根据笔者多年从事青少年骨骼年龄评估的科研工作经验以及在日常骨龄鉴定检案实践中与法官、检察官及办案民警等委托人对于骨龄鉴定意见采信的具体要求中了解到,对于骨龄鉴定意见在±1.0岁误差范围内以及结果的准确率在80%以上时,委托人结合其他年龄证据,可以采纳法医学骨龄鉴定意见对案件进行审理与判决。而当误差范围设定为±0.7岁时,骨龄评估结果的准确率下降较为明显,且同一性别误差范围为±0.7岁的训练集和测试集的准确率波动亦较大,这一结果的变化主要考虑与本研究的样本总量有限相关,误差范围为±0.7岁的准确率目前尚不能应用于我国青少年骨龄鉴定检案实践。本课题组在后期研究中,将会继续增加样本量,进一步提高结果准确率、并逐步克服随精度要求增加时准确率的波动现象。

与以往各方法相比,本研究存在以下优势:(1)深度神经网络自动提取特征代替人工读片,节省时间和人力;(2)将手、腕部作为一个整体进行分析,信息更全面;(3)图像在进行网络预处理时选用经典的OTSU算法生成二值化图像,在研究中通过加入参数调整OTSU结果,使除骨骼像素点以外的组织像素点也可被选出,从而避免有用的深度学习特征信息丢失;(4)从图像预处理(调整灰度,分割图像去除字符)和人工控制处理(过滤有首饰穿戴等因素)两个方面综合提高图片质量,更利于深度学习;(5)本研究选用的网格搜索算法可以在一定精度范围内通过选用10%验证集检验,找到使网络训练结果最优的参数;(6)与SPAMPINATO等[16]及LEE等[17]方法相比,本研究选用的左手腕关节DR图像样本为自主收集与筛选,相比于其在线数据库而言,本研究样本规格更趋于统一、质量相对更优,在后期图像预处理过程中的特征信息丢失更少;(7)本研究针对我国新疆维吾尔自治区的骨龄进行探究,我们认为该数据集具有特殊意义,既扩充了我国除汉族以外另一个民族的骨龄评估数据库,又利于公安部门处理少数民族人群相关案件的骨龄评估问题。

通过本研究结果可以看出,深度学习之所以能较好地应用于医学影像图像识别中,离不开以下三个关键点:(1)选用深度卷积网络,该网络通过卷积层和采样层对输入图像逐层学习代表特征,后接包含前层抽取出的特征向量训练的全连接回归层。其BN可以优先避免误差反向传播中的梯度消失和爆炸问题,使权重更新更加稳健,从而减少分类结果对于权重初始化的依赖性,可使用更高学习速率,更易于深度学习。目前在许多计算机视觉任务中取得了显著成绩,包括目标分类、检测和语义分割[16]。(2)深度卷积网络之所以在自然图像分类工作中迅速发展,是由于有大规模可用和全面注释的数据,如ImageNet[24]。然而,现阶段获取和ImageNet同规模和同质量注释的医疗数据仍是一大挑战,且医学图像数据量和可用特征与自然图像相比都较少,使深度卷积网络回归具有更大挑战性。本研究选用迁移学习[22],将在简单知识及大规模数据集上训练良好的网络作为初始网络,使其可简单分辨图像,然后微调权重,使模型可应用于特定目标。该方法一般应用在性质相似数据集之间。虽然医学图像与自然图像有很大不同,但是相关骨龄研究[16-18]均证实,通过使用在大数据集上训练的通用滤波器组和调整参数来呈现医学图像特有的高级特征是可行的。(3)机器学习的某些参数取值范围极大,甚至可能是整个实数域,有必要人为设置范围及离散化参数。参数不同,将会极大地影响模型训练及最终结果。尤其是医学影像图像,相对其他图像而言,像素灰度差异不大的特性决定了网络更需要优化参数,来提高网络精度及数据分析能力。

综上,本研究通过对我国新疆维吾尔族青少年男、女性左手腕关节DR图像与深度学习相结合,进一步证实了深度学习应用于骨龄研究的可行性,使人工骨龄评估迈入自动化评估进程。但鉴于本研究是一种探索性研究,因此,在样本数量的采集、深度学习的算法选择以及测试结果与真实年龄的差值等方面仍有较大的提升空间。在下一步研究中,我们将致力于扩大样本量,增加躯体各大关节的采集部位,优化深度学习算法、深入挖掘DR图像信息,进一步探索深度学习在躯体其他关节DR图像识别中的应用价值。

[1]TANNER J M,GIBBONS R D.A computerized image analysis system for estimating Tanner-Whitehouse 2 bone age[J].Horm Res,1994,42(6):282-287.

[2]GROSS G W,BOONE J M,BISHOP D M.Pediatric skeletal age:determination with neural networks[J].Radiology,1995,195(3):689-695.

[3]SATO K,ASHIZAWA K,ANZO M,et al.Setting up an automated system for evaluation of bone age[J].Endocr J,1999,46 Suppl:S97-S100.

[4]FAN B C,HSIEH C W,JONG T L,et al.Automatic bone age estimation based on carpal-bone image--a preliminary report[J].Zhonghua Yi Xue Za Zhi(Taipei),2001,64(4):203-208.

[5]王亚辉,王子慎,魏华,等.基于支持向量机实现骨骺发育分级的自动化评估[J].法医学杂志,2014,30(6):422-426.

[6]VAPNIK V N.The nature of statistical learning theory[M].2nd.New York: Springer-Verlag,1995.

[7]吴岸城.神经网络与深度学习[M].北京:电子工业出版社,2016.

[8]蔡自兴,刘丽珏,蔡竞峰,等.人工智能及其应用[M].北京:清华大学出版社,2016.

[9]LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015,521(7553):436-444.

[10]GOODFELLOW I, BENGIO Y, COURVILLE A.Deep Learning[M].Cambridge: MIT Press,2016.

[11]MALON C D,COSATTO E.Classification of mitotic figures with convolutional neural networks and seeded blob features[J].J Pathol Inform,2013,4:9.

[12]CIOMPI F,de HOOP B,van RIEL S J, et al.Automatic classification of pulmonary peri-fissural nodules in computed tomography using an ensemble of 2D views and a convolutional neural network out-of-thebox[J].Med Image Anal,2015,26(1):195-202.

[13]ESTEVA A, KUPREL B, NOVOA R A, et al.Dermatologist-level classification of skin cancer with deep neural networks[J].Nature,2017,542(7639):115-118.

[14]何雪英,韩忠义,魏本征.基于深度学习的乳腺癌病理图像自动分类[J].计算机工程与应用,2017.

[15]LEE S, CHOI M, CHOI H S, et al.FingerNet:Deep learning-based robustfinger jointdetection from radiographs[C].2015 IEEE Biomedical Circuits and Systems Conference (BioCAS),2015.

[16]SPAMPINATO C, PALAZZO S, GIORDANO D,et al.Deep learning for automated skeletal bone age assessment in X-ray images[J].Med Image Anal,2017,36:41-51.

[17]LEE H, TAJMIR S, LEE J, et al.Fully Automated Deep Learning System for Bone Age Assessment[J].J Digit Imaging,2017,30(4):427-441.

[18]KIM J R,SHIM W H,YOON H M,et al.Computerized Bone Age Estimation Using Deep Learning Based Program:Evaluation of the Accuracy and Efficiency[J].AJR Am J Roentgenol,2017,209(6):1374-1380.

[19]OTSU N.A Threshold Selection Method from Gray-Level Histograms[J].IEEE Transactions on Systems,Man, and Cybernetics,1979,9(1):62-66.

[20]KRIZHEVSKY A, SUTSKEVER I, HINTON G E.ImageNet Classification with Deep Convolutional Neural Networks[M]//PEREIRA F, BURGES C J C,BOTTOU L,et al.Advances in Neural Information Processing Systems 25.Curran Associates, Inc.,2012:1097-1105.

[21]SHIN H C,ROTH H R,GAO M,et al.Deep Convolutional Neural Networks for Computer-Aided Detection: CNN Architectures, Dataset Characteristics and Transfer Learning[J].IEEE Trans Med Imaging,2016,35(5):1285-1298.

[22]吴皓莹,程晶,范凯.基于SVM的语音特征提取及识别模型研究[J].武汉理工大学学报(交通科学与工程版),2014(2):316-319.

[23]胡婷鸿,万雷,刘太昂,等.深度学习在图像识别及骨龄评估中的优势及应用前景[J].法医学杂志,2017,33(6):629-634,639.

[24]DENG J, DONG W, SOCHER R, et al.ImageNet:A large-scale hierarchical image database[C].2009 IEEE Conference on Computer Vision and Pattern Recognition,2009.

猜你喜欢
骨龄腕关节准确率
2387 例儿童青少年骨龄调查分析
评估身高需要定期测骨龄吗
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
研究多层螺旋CT联合核磁共振成像应用于腕关节损伤的影像诊断价值
骨龄预测身高靠谱吗
幼年特发性关节炎累及腕关节MRI表现及其分布特点研究
寒湿痹阻及湿热痹阻型类风湿性关节炎的腕关节MRI表现的相关性研究
骨龄测评软件在矮身材、性早熟儿童身高管理中的应用