用AI打开心灵的窗户

2018-05-03 17:15陈彬

南方周末 2018-05-03

科学家基于大数据和机器学习，研发出一种计算机算法，这种算法通过眼底影像来预测人未来患心脑血管疾病的风险，其准确度已经和目前使用的专业评估标准相当。

南方周末特约撰稿陈彬

人们常说“眼睛是心灵的窗户”，这是因为通过眼神，你可以看出人心中的种种情感，喜怒哀乐，可谓一目了然。然而，从这扇心灵的窗户，你能看到的还远远不止这些。随着医学的进步，科学家们现在已经能够通过观察一个人的眼睛，来评估其健康状况和患病风险（不仅仅限于眼病）。谷歌和兄弟公司Verily Life Sciences的科学家最近就研发出一种计算机算法，基于大数据和机器学习，这种算法能够通过眼底影像来预测人未来患心脑血管疾病的风险，其准确度已经和目前使用的一些专业评估标准的水平相当。这项新的研究成果发表在权威期刊《自然-生物医学工程》（Nature Biomedical Engineering）上。由于这种方法高效、便捷以及非侵入性的特点，未来可能会得到广泛应用，一方面，帮助普通人监控自己的健康状况，尽早发现健康隐患，另一方面，还能够帮助公共卫生机构和部门监控相关的流行病学趋势，制定更加有效的健康指南和防控政策。

从眼底影像入手

心脑血管疾病是心脏血管和脑血管疾病的统称，包括心脏病、动脉瘤、中风等。根据世界卫生组织的一份调查报告，这类疾病是全世界非洲以外地区的头号死因。在全球每年死亡的人中，大约有32%死于心脑血管疾病。这份报告还估计，到2030年时，每年将会有两千三百万人死于这类疾病。心脑血管疾病不仅给病人和病人的家人带来了极大的痛苦，如此庞大的患病人口也给各国的医疗卫生系统添加了沉重的负担。另一方面，医学研究表明，如果尽量做到避免相关的致病风险因子（比如吸烟、酗酒、缺乏锻炼、不健康的饮食等），有90%的心脑血管疾病一定程度上是可以避免的。毫无疑问，如果有一种能高效、便捷地预测心脑血管疾病患病风险的方法，将会对这些疾病的防控以及发现未知的致病风险因子有很大的帮助。

此前的医学研究还发现，人眼底影像中视网膜上血管的一些特征与心脑血管疾病的患病风险有很高的相关性，比如一个人的视网膜微静脉如果比普通人微静脉的直径更大，那么他患心脑血管疾病的风险就比普通人更高一些。视网膜微动脉的直径和心脑血管疾病的患病风险也存在关联，不过与视网膜微静脉正好相反，如果一个人视网膜微动脉的直径比普通人微动脉的直径更小，患心脑血管疾病的风险就更高。因此，从理论上说，人的眼底影像可以被用来预测心脑血管疾病的患病风险。

在这一领域的研究中，科学家此前也确实有一些进展。然而，此前的方法都有一个缺点，那就是其分析和评估过程最多只达到了半自动化（使用相应的计算机软件）的程度。很多软件对眼底影像的分析非常耗时，常常需要几十分钟才能对血管进行分类并测量相关的指标。即使完成了上述测量，这些软件仍然无法以此来预测患病风险：这些方法最终总是需要有经验的医学工作者甚至专家来完成评估。这大大限制了这类方法在临床上的应用。

在这项新的研究中，谷歌的研究人员利用大数据和机器学习的方法，设计出了一种算法（下文中用英语人工智能的首字母缩写“AI”来表示），可以仅仅通过人的眼底影像，预测一系列已知的与心脑血管疾病患病风险相关的指标，比如性别、年龄、是否吸烟、血压、身高体重指数（体重除以身高的平方）等。这些信息随后被AI用于预测人患心脑血管疾病的风险。

用大数据“自学”

机器学习的方法不止一种，谷歌的科学家使用的是一种叫做深度学习的方法。而深度学习本身又有不止一种“策略”，科学家在这项研究中使用的是一种叫做卷积神经网络的策略。

科学家之所以使用卷积神经网络，是因为这种方法在图像分析领域有非常不错的表现。它的工作原理借鉴了大脑进行信息处理的策略，这也是卷积神经网络这个名称中包含“神经网络”这个词的原因。

卷积神经网络包含有很多“层”，这一点与大脑类似，因为大脑的神经元也是分层分布的。在大脑的每一层中，往往有各式各样不同的神经元来担负各不相同的功能。与此类似，卷积神经网络的每一层中也有不同的“神经元”，在这项研究中，它们负责对图像的不同特征进行提取和分析（比如眼底影像中某个区域的颜色）。不同的“神经元”读取到的信息并不“平等”，在决定卷积神经网络得出的结论时所占的权重有大有小。在这个神经网络中，相邻的层与层之间存在连接，信息可以从一层流向另一层。卷积神经网络的最后一层是一个“集大成”的层，与其他的所有层都有连接，通过把此前各层的分析结果整合到一起得出最后的结论，在这项研究中，就是对人患心脑血管疾病风险的预测。

要想让AI准确预测人患心脑血管疾病的风险，科学家需要首先对它进行“训练”。这种训练是通过大数据分析和学习来完成的。研究人员使用了来自两个生物医学数据库，总共284,335名病人的眼底影像照片来训练他们设计的AI。在训练的过程中，并不只是用到了上述眼底影像的照片，同时还用到了这些病人与心脑血管疾病相关的其他一些信息（这些都是上述两个数据库在采集数据时收录的，因为只有包含这些信息，这些影像才会对医学研究有帮助），比如年龄、性别、是否吸烟等，这些信息也是已知的导致心脑血管疾病的风险因子。每一个病人的信息与其眼底影像照片一一对应。

AI的训练方式很像是一个学生在不断进行考试，并且通过考试的结果进行“自学”，从而提高预测的准确性。每一张眼底影像照片就像一份“考卷”，当把照片提交给AI后，卷积神经网络各层的“神经元”会对照片的各种特征（比如某个区域的亮度）进行分析，并将结果传给下一层的“神经元”，所有分析结果会按不同的权重汇总整合到一起，并最终做出预测（这些预测实际上分为两个层次，第一个层次是对性别、年龄、血压等的预测，第二个层次是在第一个层次的基础上对患心脑血管疾病风险的预测），这些做出的预测就像是AI写在考卷上的“答案”。“答案”写完了，就该“对答案”了。AI会把自己的“答案”与病人的相关信息，也就是“正确答案”进行比较。如果“答案”和“正确答案”很相似，那么就继续进行下一轮“考试”；如果“答案”和“正确答案”存在较大的偏差，那么AI会对自己的“解题方法”做稍许调整，比如降低或是增加某一类“神经元”的权重，然后再进行下一轮“考试”。

通过海量的“考试”，科学家希望这些“考卷”能够覆盖到不同个体关于心脑血管疾病的各类信息：男人的、女人的、年轻人的、老年人的、烟民的、糖尿病病人的、高血压病人的等等。这样AI就能够通过学习找到针对不同人群的“规律”，比如看到某一张眼底影像中存在与男性相对应的“规律”，就可以预测这张照片是一个男性的眼底影像。

在把这284335张“考卷”做完之后，AI就“毕业”了。接下来就该看看它是否“学有所成”，能够准确预测病人患心脑血管疾病的风险了。科学家从上述两个数据库中又拿出大约13000名病人的眼底影像照片（这些病人的眼底影像没有用来训练过AI），让AI进行预测，然后将预测结果与病人的信息进行比较，以考察其精准性。结果发现AI能够很准确地预测出病人的年龄、性别、血压、身高体重指数等风险因子，但对糖化血红蛋白（水平与糖尿病相关）等其他一些风险因子的预测效果并不是很理想。

尽管如此，当AI把所有风险因子的预测整合到一起，预测病人心脑血管疾病的患病风险时，AI的表现仍然非常优异，在被用于预测五年内患心脑血管疾病的风险时，其准确度已经达到了由欧洲心脏病学学会制定的风险预测计算方法的水平，而后者的计算需要非常多的指标，很多都是AI在训练时并没有学习的（比如病人的血脂水平）。这样的结果表明，无需其他任何信息，仅仅凭借眼底影像的照片，谷歌科学家开发的这种AI一定程度上就能专业级地预测病人患心脑血管疾病的风险了。

AI医学正在起飞

虽然这种算法表现已经相当优异，但谷歌的科学家认为，其仍有很广阔的提升空间。

一方面，对于大数据科学来说，284335张眼底影像照片这一数量还是太小了，如果用更多的眼底影像照片来对AI进行训练，AI的预测准确度可能还会提高；另一方面，这项研究中用于训练AI的病人信息并不是很全面，比如只有来自一个数据库的病人信息中包含了血压、糖化血红蛋白等指标，而血脂水平则两个数据库都没有收录，如果用包含这些信息的眼底影像照片来训练AI，其预测准确度也可能会提高。

除此之外，这项研究的主要参与者Lily Peng认为，病人一些非生理指标的信息，比如生活方式的变化也可以被纳入到用于训练AI的信息中去，这一方面可能提高预测的准确度，另一方面还有利于发现此前未被医学界注意到的风险因子。总的来说，科学家对提高这种AI的准确性以及未来的应用前景持乐观态度。

毫无疑问，如果谷歌科学家开发的这一算法能够得到进一步的强化并最终用于临床，将会对监控个人以及群体的心血管健康状况有非常大的帮助。对于那些生活在贫穷或者偏远地区的人们来说，这种方法带来的益处将会更为显著。

这些地区的医疗条件往往非常落后，因此使用常规的心血管健康状况监控方法所需的很多检查有可能无法进行。有了这种算法之后，理论上来说，医疗人员只需要一部智能手机就能对这些地区的人进行检查和监控了：早在2010年，科学家就研发出了轻巧便捷并且能够安装到智能手机上的眼底照相机。利用加载了这种照相机的智能手机，医疗人员就可以拍摄病人的眼底影像，进而监测其心脑血管的健康状况，无需携带其他任何设备。

实际上，随着人工智能技术的飞速发展，人工智能的元素正在越来越多地渗透到医学领域中。

2018年4月11日，美国食品药品监督管理局（FDA）首次批准了一种基于人工智能的诊断设备。这种设备能够通过一个叫做IDx-DR的AI软件分析病人的眼底影像照片，进而诊断糖尿病病人的眼病，全程无需医生参与。

2016年，利用IBM基于人工智能的超级计算机“沃森”，东京大学医学科学研究所的科学家成功地诊断出了一名病人患的一种极为罕见的白血病。“沃森”在对超过2000万篇癌症研究论文进行交叉比对之后给出了诊断结果，全程仅花了十分钟。

类似这样的例子近年来正在越来越多的出现在科技新闻甚至新闻头条上。有理由相信，大数据和人工智能技术即将掀起一场医学革命。