多模态检索在医学领域的研究综述

2023-01-13 11:56丁国辉房士超孙小宇张路霞孔桂兰
计算机工程与应用 2023年1期
关键词:检索模态医学

丁国辉,张 琦,房士超,李 青,孙小宇,,张路霞,,孔桂兰,

1.北京大学 健康医疗大数据国家研究院,北京 100191

2.沈阳航空航天大学 计算机学院,沈阳 110136

3.浙江省北大信息技术高等研究院,杭州 311215

随着计算机与大数据技术在医学领域中的迅速应用以及医疗信息存储标准的逐渐完善,医学数据呈爆炸式增长。医学数据由于其自身特点而呈现出多模态形式,诊断报告、多种医疗成像设备如X光、计算机断层扫描、磁共振成像、超声成像和正电子发射断层扫描产生的医学影像都被称为多模态数据。且这些多模态数据往往同时出现,互相补充[1]。如骨折的位置以及断裂的状态和程度可以用X光片来表示,也可以通过文字报告进行表示,实际临床分析中通常使用以上两种模态的数据来准确描述骨折的情况[2]。在医学领域中,这些多模态数据混合并存,形成了一种语义上相似且相互关联的复杂特征。如何跨越不同模态间底层异构鸿沟以及底层特征与其抽象语义间的语义鸿沟[3],进而实现多模态数据间的关联是急需解决的问题。

如图1所示,医学领域多模态检索,即用一种模态的样本来检索多种模态的医学数据,如使用文本来检索与之语义相似的诊断报告、CT、X光片、MRI等多种模态的数据,是涉及机器学习、自然语言处理、计算机视觉、大数据等技术的交叉领域,具有十分重要的学术价值和研究意义[4]。放射学科医生进行诊断时,通常根据他们之前肉眼观察过的病例特征来判断,由于数据量大、经验有限等原因,不可避免会出现误诊等情况,对患者治疗的准确性留下很大的隐患。而多模态医学检索技术能够帮助医生检索到语义相似的多模态病例信息,从而提高临床诊断和治疗决策的效率与准确性,并且这些整合的医学资源便于新手医生和学生进行学习,也为促进计算机辅助诊断系统提供了一个新视角。因此,实现多模态数据检索在医疗领域具有重要的临床意义。本文通过相关文献研究,总结了多模态检索在医学领域的研究进展,主要贡献点如下:

图1 医学领域的单模态与多模态检索Fig.1 Unimodal and multimodal retrieval in medical field

(1)综述多模态检索在医学领域的进展,有利于快速了解和熟悉医学大数据的多模态检索现状。

(2)对医学领域多模态检索方法进行归类,并介绍不同类别的多模态检索方法及其特点。

(3)梳理医学领域多模态检索面临的挑战,并总结未来该领域的发展趋势。

1 多模态检索方法

当前医学领域,为从海量的异构医学数据中提取出有效信息,帮助医生提高临床诊断与治疗的效率及正确率,多模态检索技术已成为一个研究热点,尤其是在图像检索方面得到广泛应用并取得较多研究成果[5-14]。本文系统梳理了医学领域的多模态检索方法,将其归纳为三类:基于文本的多模态检索、基于内容的多模态检索及基于融合信息的多模态检索。其中,基于内容的多模态检索可进一步划分为基于传统特征的检索和基于深度特征的检索。

1.1 基于文本的多模态检索

基于文本的多模态检索是早期常用的研究方法,如图2(a)所示,该方法将数据库中的多模态医学图像通过某种方法以文字的方式表示,通过将多模态检索转变成单模态检索解决异构数据间的“语义鸿沟”问题[15],其依赖的文本数据一般需要从图像描述中提取,故基于此方式的数据检索应该提供图像的上下文或标题。为实现对大量放射图像及其相关文本的快速访问,Kahn等[16]开发了一个包含20万张多模态医学图像的搜索引擎,基于图像标题来构建索引,然而图像中包含的信息丰富,一个图标题概括不了图中所有的文本信息。于是Xu等[17]开发了一个耶鲁图像检索系统(Yale image finder,YIF)来实现图像与论文的检索,不仅可以基于图像标题、相关论文摘要和论文标题中的文字完成相关图像及论文的检索,而且使用光学字符识别和分析图像中的文本,然后基于图像中携带的文本来检索生物医学图像和相关的论文。在图像对应的文本描述中,并非所有文字都起到同等重要的作用,以上提到的两种方法均无法突出图像中的重点。为区分重点与噪音内容及得到更匹配的结果列表,Stathopoulos等[18]创建了图像的结构化文本表示,并使用基于结构化文本中字段的组合对它们进行索引,由于不同字段对图像描述的权重存在差异,因此该方法采用对相应部分的字段赋予不同的权重作为检索阶段的特征。

图2 医学多模态检索方法分类Fig.2 Classification of medical multimodal retrieval methods

更早的时候,基于文本的多模态图像检索方式是通过医学专家对图像的人工注释来构建索引的,但该方法由于昂贵的人工成本及庞大的数据量而难以实现。后来研究者使用图像依附的上下文、图像标题或识别图中的文字来自动构建图像的文本索引,然而这种方法仍然有很大的局限性,毕竟不是所有的医学图像都具有上下文及标题,且很多临床图像中也不包含文字,所以上文提到的基于文本的多模态检索方法不具有普适性。

1.2 基于内容的多模态图像检索

在医学领域中,基于内容的多模态图像检索(content based image retrieval,CBIR)是一种图像检索技术,如图2(b)所示。检索的目标是在包含不同成像方式的多模态医学图像数据库中(例如,CT图像、X光图像、MRI图像、超声图像等)搜索与给定查询图像具有相似视觉特征的医学图像。为了实现这一目标,算法将图像的视觉内容转换成视觉特征来表示图像,然后基于视觉特征之间的距离来计算图片间的相似度。近年来,许多基于内容的多模态图像检索系统得到了发展,但多种模式的医疗成像设备给医学图像的检索带来了挑战,面对这一挑战,研究者开发了一系列算法用于实现基于内容的多模态医学图像检索。通过相关文献研究,本文将其划分为基于传统特征和基于深度特征两种。

1.2.1 基于传统特征的方法

医学领域中使用的图像特征主要集中于全局颜色、边缘、纹理等,大多数检索方法通常使用这些特征的组合。由于这些特征可以自动或半自动地从实际图像中提取,所以它比昂贵且主观的人工标注更可靠且更具有可扩展性[19]。Zhou等[20]提出了一个基于案例的骨折图像检索算法,其可以在混有X光片、计算机断层扫描、核磁共振、血管造影等多模态图像数据库中完成相似图像的检索,案例特征(case feature)由一个视觉关键词和局部尺度不变特征转换(scale-invariant feature transform,SIFT)[21]共同组成,该方法使用案例特征来计算查询图像与数据库中每张图片的相似度。为了减小多模态图像数据检索中的异构差异,Liu等[22]提出了一种新的传播图融合框架来实现基于内容的多模态医学图像检索,该方法首先将查询对象在不同模态的特征空间中建模,然后将多个特征空间中的图融合为一个以查询对象为中心的有向传播图,图中的边反映了查询图像与其他数据间的相关性,最后根据结点之间的相关度来进行索引排序。同样使用到图的多模态医学图像检索,与之不同,Kumar等[23]通过将图像压缩为图的方式来实现正电子发射与计算机断层扫描的检索,图的顶点和边分别代表人体相关的组织器官及空间结构。这种基于空间相似性的图检索方法虽然有效提高了检索精度,然而图的存储及图之间相似性的比较在空间和时间上增大了算法复杂度,而且大规模医学影像数据也会消耗巨大的存储空间。为提高系统的可伸缩性与响应速度,Kitanovski等[24]开发了一种基于内容实现多模态医学图像检索的系统,利用编码和量化技术极大地缩减了图像表示的大小,其在生成的向量上使用的乘积量化技术提高了系统的可扩展性和响应速度。

1.2.2 基于深度特征的方法

自2006年起,深度学习飞速发展并且在众多科学挑战中取得了成功[25-29],典型的卷积神经网络(convolutional neural network,CNN)、递归神经网络(recursive neural network,RNN)、深度置信网络(deep belief network,DBN)等深度学习方法也被应用在多模态检索领域[30-32]。深度特征即通过深度神经网络在具有不同成像方式的多模态图像中学习到的特征,其通过多层网络融合了图像中的低级、中级和高级特征,有效解决了传统特征在捕捉多模态医学图像之间语义相似方面的局限性问题。在组织病理学中,Wang等[33]和Janowczyl等[34]介绍了深度学习在该领域的应用,其中使用深度特征实现医学图像检索的研究较少。然而,近几年利用深度特征实现信息检索受到了大家广泛的关注,在医学领域也有研究人员将深度特征用于医疗多模态图像的检索。Shi等[35]利用深度学习技术学习映射函数,提出了基于堆栈式自动编码器的无监督方法和基于深度卷积神经网络的有监督方法来挖掘不同模态间的语义关系。2020年,Mbilinyi等[36]提出利用深度特征从包含不同成像方式的多模态医学图像数据库中(例如,CT图像、X光图像、MRI图像、超声图像等)中检索相似的医学图像,且使用三种图像特征进行实验对比:(1)从自然景物图像训练出的CNN模型中通过微调提取深度特征;(2)从基于医学图像训练得到的CNN模型中提取深度特征;(3)使用哈拉里克和局部二值模式的纹理特征,结果证明两种基于深度特征的检索性能均优于传统的纹理特征。Rossi等[37]于2021年使用有监督的深度孪生网络来改进简单CNN对医学图像的特征提取能力,实现前列腺多模态和多视图磁共振图像间的多模态检索,研究表明该网络[38-41]在图像相似性度量方面的能力得到显著的提升,该方法与成熟的基于深度学习的CBIR的实验相比,在精度-召回率、平均精度等方面有显著提高。尽管深度学习极大地推进了多模态检索在医学领域的发展,但该方法通常需要大规模数据来训练网络,耗时且占用大量的计算空间,引入哈希变换则可以很好地解决这类问题。

哈希变换是跨模态检索技术中一种常见的性能优化方法,其在提升检索速度的同时,能够降低检索过程中的存储开销,因此在跨模态检索中得到了广泛的应用[42-46]。其思想是利用多模态数据的样本对信息学习哈希函数,函数映射的基本依据是相似样本的哈希码也是相似的。因此,将多模态数据映射到一个汉明空间,最小化相似样本之间的哈希距离的同时最大化不相似样本之间哈希距离,然后在汉明空间中即可实现快速的跨模态检索[47]。Wang等[48]和Cao等[49]将哈希方法与深度学习结合,分别提出了基于堆叠式的自动编码器和深度神经网络相关的自动编码器。为增强特征提取与哈希编码的一致性,Jiang等[50]将特征抽取和哈希码学习进行整合,提出了统一框架,实现了端到端的学习。Yang等[51]将深度哈希算法应用到医疗多模态检索领域中,提出了一个深度贝叶斯的学习框架,将多模态数据映射到一个共享的汉明空间,从而在多模态神经图像中学习到能代表该数据的哈希码,哈希码之间的距离大小代表着多模态数据间的相似程度。实验结果表明该方法能够生成有效的哈希码,并在三个多模态神经图像数据集的检索中取得了良好的性能。然而该方法并未考虑到人体组织间的高度相似性会带来微小病灶信息难以区分的问题,针对医学影像视觉差异小这一特点,Zhang等[52]通过加入attention注意力机制,利用平均池化和局部重复注意力提取全局特征,递归地从图像的粗粒度移动至细粒度,完成影像中更具鉴别力区域特征的提取,其在MIMIC-CXR数据集中取得了很好的效果。以上两者中所提到的医学图像均是二维平面图,面向三维立体的ROI肺结节图像块,针对文献[53]提出了使用多层面二阶融合的特征提取的方法提取肺结节特征信息,首先从三个不同角度对ROI图像块切片并进行特征融合,然后通过改进的残差网络进行低级特征与高级特征的二阶融合,提取出更完整的三维肺结节的特征信息。虽然基于哈希的多模态检索极大地促进了计算机辅助诊断系统的发展,但哈希码的弱鉴别性则对其发展造成了阻碍。Shi等[35]使用深度确定性信息瓶颈方法(deep deterministic information bottleneck,DIB)[54]来避免变分推理和分布假设从而减少多余的信息,有效地增强了哈希码的可鉴别性。以上四种方法捕获两个模态之间的相关性时均使用的粗粒度的标签信息或模态间和模态内的相似性,不利于保留原始空间和汉明空间之间的流形结构,针对这一问题,Xu等[55]直接使用多模态流行相似度来保持实例间的相关性,且引入高斯二进制受限玻尔兹曼机利用实值约束直接输出哈希码,无需进行任何连续松弛继而平滑拟合,其提出的判别项可保证哈希函数所编哈希码的每一位各不相同,解决了哈希码弱鉴别性问题。

从以上提到的模型可以看出:基于内容的多模态检索技术逐渐趋于成熟。同时,也经历了从基于传统特征到基于深度特征方法的改进,继续使用传统的视觉特征很难在准确率与召回率方面得到明显的提升,目前深度神经网络发展迅速,其强大的非线性特征提取具有很大的潜力,所以使用基于深度学习的方法会是今后重点研究的方向。鉴于深度模型的参数庞大,需要大量标注的训练样本,可以考虑结合迁移学习等方法解决这一问题。

1.3 基于融合信息的多模态检索

尽管基于内容的多模态医学图像检索取得了一些进展,但现有系统的检索精度仍然有限,所以将基于内容和基于文本的方法结合起来进行多模态图像检索以克服这两种方法分别进行检索时的不足成为一个研究热点。如图2(c)所示,信息融合常用的方法是利用从文本中提取的语义信息与图像特征信息进行组合。Martín-Valdivia等[56]使用信息增益(information gain,IG)度量来筛选文本中的有效语义信息,然后通过融合图像与文本信息对基于视觉内容的多模态图像检索系统进行改进。融合多模态异构信息提取出更高级的语义特征,可以更好弥补模态间语义鸿沟。除了这种特征级融合算法,Vikram等[57]还探索了决策级特征融合技术在医学多模态检索中的效果,其使用一种基于潜在狄利克雷分配(latent Dirichlet allocation,LDA)的视觉特征编码方法,首先利用视觉特征来与数据库中的图像进行相似度衡量,然后将文本作为补充语义来筛选出更理想的结果列表,研究结果表明这些特征能够有效地对多模态医学图像进行建模。该文提出的决策级融合技术在Image-CLEF2009数据集上实现了比其他技术更高的平均精度均值,证明了其适用于多模态医学图像检索。考虑到现实的临床应用中经常会缺失一些模态,Cao等[58]开发了一种新的基于深度玻尔兹曼机的多模态学习模型,从多模态信息中学习联合密度模型来生成缺失的模态,然后使用一种新的概率潜在语义分析模型(probabilistic latent semantic analysis,PLSA)整合医学图像的视觉和文本信息,通过融合多模态异构信息提取出高级语义特征弥补语义鸿沟。该方法在很大程度上提高了医学图像检索的性能,在临床实践和医疗保健方面也有很大的应用潜力。然而,其中对生成缺失模态信息的算法要求会比较高,生成算法的准确率直接影响检索算法的性能。

不同模态的数据从不同角度表达了多种相关信息,通过挖掘多模态数据内在内容的相关性可以达到优势互补的效果。融合的信息可以更好地反映出用户的检索需求,有利于提高使用单一模态检索的效率,但是算法最终的准确率依赖于融合算法的性能,如何有效地对多个单模态的数据进行特征特取与融合是一个富有挑战性的工作[59]。

2 医学领域多模态公开数据集

数据集对开展多模态检索方法研究及性能评价方面的研究至关重要,由于多模态检索技术在医学领域应用及发展时间比较短,所以目前医学领域公开的多模态数据集比较少,而且,多模态数据集的规模也相对较小。医学领域中常见的公开的多模态数据集如表1所示。

表1 医学领域中常见多模态数据集Table 1 Common multi-modal datasets in medical field

(1)ImageCLEF:ImageCLEF是跨语言评估论坛(Cross Language Evaluation Forum,CLEF)的一部分,主要涉及信息检索(文本、视觉、音频、多媒体、传感器数据、社交媒体)、机器学习、数据挖掘、自然语言处理等,尤其关注多模态、多语言的交互式方面的挑战。Image-CLEF医学图像数据来源广泛,包括放射学、病理学、内窥镜和核医学图像,包含了2005至2007年间的66 000多幅图像。在2013年,ImageCLEF数据集已经扩展到30万幅多模态医学图像,包括磁共振、计算机断层扫描、正电子发射断层扫描、超声波和组合模式,而且所有的图像都带有相关的文本报告。该数据集被广泛应用于医学领域的多模态医学图像检索中。

(2)LIDC-IDRI数据集:Lung image database consortium(LIDC-IDRI)是一个国际公开的数据库,也是目前对肺结节研究使用最多的一个数据库。该数据集由美国国家癌症研究所(National Cancer Institute,NCI)发起收集,共收录了1 010个患者的病例。每条数据由CT扫描图像和一个相关的XML文件组成,该XML文件记录了4位经验丰富的胸椎放射科医生对图像注释的结果。每个放射科医生先独立检查每个CT扫描,并标记出“结节≥3 mm”“结节<3 mm”“非结节≥3 mm”3者中的一种。随后,每个放射科医生分别检查他们自己的标记以及其他3位放射科医生的匿名标记,以给出最终的意见。每位患者的CT图像切片有100至300张。

(3)MIMIC-CXR数据集:MIMIC-CXR数据集[60-61]是一个大型公开的X射线胸片数据库,收录于马萨诸塞州波士顿贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center,BIDMC)的227 835项影像学研究。该数据集共有377 110张胸部X射线图像,格式为医学数字成像和通信(digital imaging and communications in medicine,DICOM)。每张图像有其对应的自由文本报告,该报告是由放射科临床医生对特定影像注释的总结。每张图像有14个影像学标签,这些标签是从相应的放射学文本报告中提取出的。为了保护患者隐私,所有图像均已取消标识,该数据集在计算机视觉领域得到了广泛的应用。

DICOM是一种存储了带有大量像素值元数据的二进制文件格式,放射学的复杂性导致DICOM格式的数据体积庞大且难以理解,这给非医学领域的研究人员造成了障碍。为解决这一问题,MIMIC-CXR数据库提供其简便版本MIMIC-CXR-JPG数据库[62],该数据库中的内容完全来自于MIMC-CXR,其中图像使用有损压缩转化为JPG格式,虽然会丢失一部分信息,但是极大地减小了图像的存储空间同时便于图像的处理,以上优点使得该数据库在计算机视觉与信息检索等领域很受欢迎。

(4)ChestX-ray14数据集:ChestX-ray14数据集[63]是由NIH研究院整理发布的,其中包含了30 805名患者的112 120张正面胸部X光片,每张X光片有其对应的诊断报告。研究人员对数据采用NLP方法对图像进行标注,共标有14种不同肺部疾病。利用深度学习技术尽量早期发现并识别胸透照片中肺炎等疾病,对增加患者恢复和生存的最佳机会来说至关重要。

3 多模态检索方法评价

信息检索中算法的性能通常使用测试数据集来衡量,常用的性能评价指标包括准确率和召回率,也称查准率与查全率。准确率代表返回的结果中相似样本所占比例,定义为:

理想情况下希望以上两指标都高,但在实际情况中两者是互相影响的,准确率高时召回率往往会低,而召回率高时准确率会低。构造一个高准确率同时高召回率的算法是很难实现的。平均精度均值(mean average precision,MAP)是将准确率和召回率结合成一个单一的综合指标。MAP由3个递进概念构成:P、AP、MAP。P即“precision”即上文的准确率;AP为平均准确率(average precision),其计算公式如下:

其中T为数据库中与查询样本相似的总个数,R是检索结果返回的样本总个数,r为检索结果序列中的位置索引,P(r)表示返回的前r个结果的准确率,δ(r)表示第r个检索结果是否是查询数据的相似样本,若相关则δ(r)=1,否则δ(r)=0。MAP即对所有的测试样本的AP再求均值,MAP值越大代表算法的准确性越高。对于单个主题的检索任务来说,MAP是反映算法综合性能的单值指标。

4 医学领域多模态检索总结与展望

4.1 医学领域多模态检索总结

如今,人工智能与机器学习的飞速发展使计算机辅助诊断发生了质的飞跃,并普遍应用在实际生活中,多模态医学数据在数量上呈现出海量化增长的趋势。多模态医学检索技术能够帮助医生检索到语义相似的多模态病例信息,从而提高临床诊断和治疗决策的效率与准确性,本文对多模态医学检索方法进行了较为细致的梳理与分类,对基于文本的、基于内容的以及基于融合信息的多模态医学检索分别进行介绍,对每类方法中的代表性算法进行了研究、分析与对比,具体见表2。

表2 (续)

表2 多模态检索方法特点分析与对比Table 2 Analysis and comparison of multi-modal retrieval methods

总的来看,多模态检索在医学领域已经取得了很大的进展,但还有很大的发展空间。基于文本的多模态检索具有很大的局限性,而且文本描述与视觉内容差异会导致准确率低。为了解决这一问题,提出基于内容及基于融合信息的多模态检索方法。基于内容的多模态检索利用医学图像本身提取灰度、纹理、形状等特征作为检索的匹配准则,在临床诊断提供了很大的帮助,此外在医学教育和医学研究方面也产生了积极深远的影响。其中,基于深度特征的多模态医学图像检索虽然需要大量的样本使网络收敛,但深度神经网络强大的非线性特征提取能力使其有很大的发展潜力,未来可以考虑与迁移学习或者小样本学习结合。基于融合信息的多模态检索通过融合不同模态的特征信息可以更好地弥补底层特征与高级语义的语义鸿沟问题,但算法性能依赖于信息融合的好坏,而且模型的复杂度相对增高。

4.2医学领域多模态检索挑战

(1)图像数据复杂

与普通相机的成像方式不同,医学图像不是直接通过传感器检测光线来完成图片的生成,而是在较为严格的标准下通过专业的医学成像设备产生的,图像质量与许多因素相关且常伴有噪声[64]。此外,由于人体组织具有高度的相似性,所以医学图像之间的视觉差异很小,且差异集中在局部病灶区。故准确识别出这些病灶特征是医学多模态检索的一个难点。

(2)异构数据的语义鸿沟

在实际的医疗应用中,器官的检测通常需要采用多模态成像方式(例如,CT图像、X光图像、MRI图像等),如常见的结合计算机断层扫描和正电子发射断层扫描,而不同的成像设备之间的分辨率和灰度变化范围很大,如何跨越异构数据间的语义鸿沟,从而实现模态间数据的语义对齐为多模态数据的分析和检索带来巨大的挑战。

(3)数据集限制

另一方面,数据集限制也是进行医疗多模态检索研究时的一大难题。目前医学领域中可用的多模态公开数据集较少。为保护患者隐私,各医院必须妥善管理病人的基本信息及诊疗数据,当在一项研究中需要使用来自多家医院的患者数据时,会存在各种约束条件[65-66]。若能解决隐私限制问题,医学专家便可通过智能检索系统实现对类似病例的异地访问,这有助于提高临床诊疗效率和水平[67]。而且近年来的研究主要针对大规模数据集,尤其基于深度学习的医学大数据挖掘,该方法需要大量数据来训练深度人工神经网络模型,故突破数据集限制将对多模态检索技术在医疗领域中的发展起到重大推动作用。

4.3 医学领域多模态检索展望

医学领域的多模态检索较其他领域而言发展较慢,结合该领域特点进行分析,总结未来的发展研究趋势如下:

(1)细粒度的多模态相关性建模

由于人体组织大体相似,所以医学图像较自然图像而言视觉差异小,且差异一般集中在局部病灶区。现有基于深度特征的多模态检索方法在学习多模态共同表示时将多模态数据映射到公共空间,然后在该空间内直接度量相似度,这类方法在多模态共同表示建模时太过粗糙,不利于有效挖掘不同模态的语义一致性。因此针对不同模态的数据提取出更细粒度的特征表示会成为未来的一个研究方向。

(2)与最新的深度学习技术结合

目前将深度学习技术应用在医学多模态检索的研究还不是很多,从表2中可以看到,基于深度特征与基于传统特征的方法相比,深度神经网络在该领域的优越性显而易见,其分层特征提取能力为图像的表示提供了很好的思路。关于基于融合信息的方法思路很好,但这方面的研究不多,而且由于对融合算法的高要求导致已有算法表现并不好。超图神经网络有较强数据样本间非线性高阶关联的刻画和挖掘能力,在处理多模态、异构数据时更加灵活,也方便多模态的融合与扩展,多模态信息融合使用超图神经网络等来进行算法改进会是一项可行的研究。类似地,针对医学领域的特点与需求,将最新的深度学习技术改进多模态检索算法也是有价值的研究方向。

(3)轻量级的多模态检索

临床医学领域中存在着大量的多模态数据,与之相应的是对于医学多模态数据检索的需求与要求也越来越高,目前的文献研究中,研究者们都在追求提高检索精度,所设计的算法复杂度高、耗时长,难以部署在小型计算平台上完成检索效率的需求。因此,设计高效且性能俱佳的轻量级检索算法也是未来一个至关重要的研究方向。

(4)建立大规模公开数据集

目前医学领域可用于多模态检索研究的公开数据集非常少,而该领域的发展尤其涉及深度学习的一些方法依赖于大批量训练样本。故建立大规模、多语义的公开多模态数据集是一项很有价值的工作。

(5)结合联邦学习

联邦学习能够在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模,这恰好可以解决医学领域中数据集限制问题。因此利用联邦学习的核心优势来解决医疗数据的隐私问题在医学多模态检索中是一项很有前景的研究。

5 小结

医学数据不仅规模庞大,而且其自身特点呈现出多模态形式。面向这些大规模医学数据,实现多模态检索的主要挑战包括跨越多模态数据的异构鸿沟、发现可以表示多模态数据语义信息的特征、挖掘不同模态数据间的复杂关联。本文对多模态检索在医学领域的研究与应用进行了文献研究,介绍了医学领域一些公开的多模态数据集,将多模态检索在医学领域的实现方法归纳为基于文本、基于内容以及基于融合信息的多模态检索三类,分析了当前医学领域多模态检索研究与应用所面临的挑战,最后结合目前医学领域多模态检索的一些待解决的问题和部分新兴的研究思路,展望了未来医学领域多模态检索的研究发展趋势。

猜你喜欢
检索模态医学
基于BERT-VGG16的多模态情感分析模型
本刊可直接使用的医学缩略语(二)
多模态超声监测DBD移植肾的临床应用
跨模态通信理论及关键技术初探
医学的进步
预防新型冠状病毒, 你必须知道的事
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
专利检索中“语义”的表现
医学、生命科学类