机器学习助力酶定向进化

2020-08-19 02:48蒋迎迎孙周通

生物学杂志 2020年4期

蒋迎迎，曲戈，孙周通

(中国科学院天津工业生物技术研究所，天津 300308)

酶定向进化，主要指通过蛋白质工程等手段，在实验室模拟并加速天然酶进化过程，对目的基因进行多轮反复的突变、表达和筛选，以分离或富集具有一个或多个预期性能改进的酶突变体(图1)。三十多年来，研究者开发了各种各样的工具和技术，例如易错PCR (Error-prone polymerase chain reaction, epPCR) 及DNA重组 (DNA shuffling) 等，将这一进化过程从自然界的数百万年缩短到几个月甚至几周时间[1-4]。然而筛选工作量是定向进化的瓶颈，想要克服这一挑战，不仅需要采用先进的基因诱变技术和方法，还需借助适当的计算手段来指导突变体及其文库设计。在此基础上，半理性设计与理性设计应运而生。半理性设计主要指凭借生物信息学方法，基于蛋白三维结构、同源蛋白序列比对或在已有知识的基础上，有目的地对蛋白质进行改造，其关键在于通过计算机模拟获得潜在的有益突变位点，再利用饱和突变技术构建适当规模的突变文库[5]。理性设计可通过预测蛋白质活性位点，考察某位点突变对催化性能的影响，从而对蛋白质进化进行设计指导和虚拟筛选。虽然定向进化、半理性设计以及理性设计在蛋白质工程中都取得了显著成果，但在生物催化剂优化过程中的特定情况下，都需要进行大量的计算或实验筛选工作。

图1 酶定向进化流程示意图

近年来，机器学习 (Machine learning, ML) 逐渐成为助力酶定向进化的一种新方法[6]。机器学习是从人工智能的广阔领域发展而来，其目的是用机器来模拟人类的智慧，可以简单理解为基于已有经验进行成功预测的学习过程。随着计算机存储容量和处理能力的不断进步，机器学习的发展速度令人叹为观止[7]。机器学习的主要目标是将一组输入值 (如氨基酸序列) 与另一组与其相关的变量输出值 (如催化活性) 之间进行建模。一旦确立了这样的数学模型，就可以通过测量观测值来预测其所对应的输出值。机器学习技术通过处理实验已知数据，将与问题相关的性能标准最大化，来自动构建这些复杂关系的计算模型，这一过程称为“训练”。训练后的模型为输入量如何映射到输出量这一问题提供新的解决方案，并且可以预测不属于训练集的新输入值[7]。

1 机器学习的发展历程与操作流程

作为一门多领域交叉学科，机器学习的发展离不开各个学科(如统计学、计算机学、概率论等)自身的进步。近百年来，由于理论与技术之间的脱节，机器学习研究经历了2次低谷，分别为20世纪70年代以及80年代末，然而每次科学技术进步又将其推向热潮，充分说明机器学习与人类生产生活密不可分的多学科特性。

1.1 机器学习的发展历程

当代机器学习经历了70余年的研究历史，具体发展历程如图2所示。1943年，Warren McCulloch和Walter Pitts教授研究并提出了基于神经网络的计算模型理论[8]；1949年，由Donald Hebb教授在为神经网络开发Hebbian学习时得到了进一步发展；次年，享誉“人工智能之父”的Alan Turing教授预见了智能机器的可能性并给出著名的“图灵测试”；1951年，Marvin Minsky和Dean Edmonds教授建立了第一台神经网络计算机SNARC；1956年，John McCarthy在达特茅斯会议上提出了“人工智能”这个词，用来描述“制造智能机器的科学和工程”。人工智能作为一门新兴学科而出现，其目标是创建可以在复杂多变的环境中学习、做出反应以及提供决策的计算机系统[9-10]。1964年，人们设计出具有初步智能的机器，例如STUDENT机器可以实现一些数学定理和语句逻辑推理的机器证明[11]，另一个早期的例子是ELIZA机器可以模仿人类对话，尽管方式有限[12]；1969年，Marvin Minsky和Seymour Papert教授证明了当时流行算法的局限性，对机器学习领域具有深远影响。自此，基于人工智能的计算设备和软件逐渐获得发展。

人工智能发展的第二高峰期在20世纪80年代初。从1980年开始，第一届机器学习国际研讨会在美国卡内基梅隆大学举行，机器学习的研究在世界范围内掀起一股热潮；1986年，MachineLearning期刊创立，有力推动机器学习领域发展；同年，David Rumelhart、Geoffrey Hinton和Ronald Williams等合作提出了被学术界广泛认可的反向传播算法(Back-propagation，BP)[13]；Eric Baum教授在1988年发表了多层前馈神经网络模型 (Multilayer feed-forward neural network)[14]，这些数字模型的出现使人工智能达到了新的高峰，同年，Terrence Sejnowski团队基于蛋白质序列信息预测二级结构，首次将这种算法应用于化学和分子生物学领域[15]；1989年，Yann LeCun教授提出了卷积神经网络 (Convolutional neural networks，CNN) 计算模型。作为首个被成功训练的人工神经网络，它是目前最为流行的计算模型之一，为今后的深度学习奠定了基础[16-17]。与此同时，各种专家系统也纷纷进入市场，如卡内基梅隆大学为数字设备公司 (Digital Equipment Corporation，DEC)创建了一个专家系统，该专家系统通过自动化决策每年帮助DEC节省了约4000万美元[18]，然而该系统很快被历史淘汰，人工智能进入了第二次低谷。

20世纪90年代后，逻辑回归、支持向量机、最大熵方法等浅层机器学习算法开始出现，虽然比起基于规则的传统方法具有很多优越性，但是碍于有限的样本和计算能力，使得表示数据间复杂函数的能力有限，只能够提取到初级特征，从而学习/训练能力不强[19]。当前的人工智能热潮始于20世纪末，其驱动力是存储数据 (“大数据”) 的快速增长、计算能力 (图形处理单元GPU、谷歌的张量处理单元TPU等) 的提升，以及机器学习算法 (如深度学习) 的持续优化[20]。这些因素的融合是革命性的，特别是在合理时间内训练深层次网络模型的可行性证明了这种方法在电子商务、游戏、医学图像分析、人脸识别和自动驾驶车辆等领域的应用潜力[9]。如DeepMind公司基于深度学习开发了AlphaGo程序，2016年轻而易举地战胜了人类围棋世界冠军；两年后，该公司基于深度神经网络开发的AlphaFold程序，在第13届全球蛋白质结构预测竞赛上又击败了众多竞争对手，获得冠军。

图2 机器学习发展历程

1.2 机器学习操作流程

定向进化的策略是从亲本序列构建一个突变体文库，并筛选出所需要的提高蛋白质特性的突变体，并使用最佳突变体作为下一轮进化的亲本，丢弃其他突变体。机器学习助力定向进化的策略是将所有突变体的序列和筛选数据用于训练一组模型 (涵盖线性、核、神经网络和集成方法等算法)，使用精准性最高的模型用于计算机模拟筛选进化过程中的突变体，该模型可以模拟所有可能序列的适应度，并根据适应度对序列进行排序，之后构建一个限制性文库，其中包含具有最高预测适应度的突变体，进行实验筛选验证[21]。机器学习常用策略主要包括3种：有监督学习 (Supervised learning)、无监督学习 (Unsupervised learning) 和半监督学习 (Semi-supervised learning)。酶分子改造研究致力于得到性能改善的突变体酶，所以有监督学习受到更多的关注。图3是有监督机器学习算法的工作流程示意图，主要分为以下3个步骤[22]。步骤1：将实验数据转换成编程语言识别的表格形式 (如.csv)，并拆分为训练集和测试集两部分，前者用于微调基于机器学习的预测模型的参数，而后者用于最终评估。数据集中任何错误、偏差或不平衡都将影响预测变量的性能，因此必须给予矫正。这一步骤通常是最耗时的阶段。步骤2：根据训练集进行预测模型训练，如通过导出决策边界并判断数据点是在边界内还是在边界外对输入数据进行分类，尽可能解决过度拟合或欠拟合问题。所以步骤2的主要挑战是避免数据欠拟合 (高偏差) 和过拟合 (高方差)。步骤3：根据测试集评估预测模型的性能，如对连续标签 (label) 计算真/假阳性和阴性、相关度量或计算均方根误差 (RMSE)。初始数据拆分的随机性以及数据不平衡可能会使评估模型产生偏差，用于评估的各项指标对不同数据偏差的鲁棒性也有所不同，通常会使最终评估失效。

图3 机器学习预测流程示意图

在酶设计改造领域，机器学习通常使用insilico的方法对组合文库进行采样，从而在每一轮中通过序列空间搜索实现更大的筛选。在这种方法中，来自组合文库 (也称输入文库) 中随机样本的真实实验数据用于训练机器学习模型，这些模型可预测较小的突变体数据集 (即预测文库)。然后将表现最佳的突变体用作下一轮进化的亲本序列，并在新位置进行突变。通过使用这种方法，大幅度提高了通量筛选，可以在一轮中同时探索多个位置，更广泛地搜索序列-功能关系，并且可以更深入地探索蛋白质编码基因上位性 (epistasis) 相互作用[21]。

2 机器学习常用算法和分子描述符

机器学习之所以能够指导蛋白质分子的设计改造，离不开其强大的算法与多样的描述符。蛋白质突变体实验数据，如催化活力、选择性、稳定性等检测数据本质也是标记数据，因此非常契合机器学习中的有监督学习范畴；另一方面，机器学习算法往往比人工创建的规则更精确，因为机器学习算法会考虑数据集中的所有数据点，而不会由于先验知识而造成任何人为偏差[23]。近年来，适用于蛋白质序列/结构的描述符不断被研究团队开发构建，已为机器学习推动酶设计改造起到至关重要的作用。

2.1 机器学习常用算法

机器学习算法在解决蛋白质预测等复杂问题方面显示出巨大的潜力，虽然机器学习算法有很多种，但没有一种算法在所有的学习任务中都是最优的[24]。对于给定的机器学习问题，通常可以训练多个计算模型。特定模型的性能取决于许多因素，如训练集的数量和质量、输入和输出变量之间关系的复杂性，以及可用训练时间和内存之类的计算约束。根据问题的不同，常常需要尝试不同的模型和算法来找到最合适的模型和算法[7, 25]。本综述基于功能相似性对机器学习算法进行广义的分类，表1列举了机器学习常用的算法。

表1 机器学习常用算法列表

2.2 蛋白质设计中常用的分子描述符

在机器学习指导酶设计中，分子描述符是构建模型的关键，所以构建适用于信息丰富的蛋白质序列的描述符至关重要。目前为止，一些基于蛋白质序列的描述符已经成功地应用于蛋白质分类和配体对接问题。除了要选择的各种描述符外，由于实验数据的信噪比较低，因此从蛋白质序列预测生物学特性也是具有挑战性的任务。因为实验测量会涉及体外蛋白质样品选择或扩增的多个步骤，这些小批量、高通量实验的结果值可能显示出较高的可变性，所以有潜力的突变体通常会得到再次确认或大规模地跟进。另一项挑战是对预测结果进行推断，包括在现有数据中尚未发现的突变体。因此，开发出精确的预测模型至关重要，使其在给定实际数据状态的情况下也可以表现良好[46]。

常用到的描述符有4种类型，包括基于氨基酸序列的描述符、基于结构的描述符、使用嵌入式的序列描述符以及突变指示描述符，表2列举了常用的描述符及其应用。Frances Arnold团队使用高斯回归，比较了嵌入式表示 (Embedded representations)、蛋白质特征工程工具包 (Protein feature engineering toolkit, ProFET)、氨基酸指数 (Amino acid index, AAIndex properties)、字符串核错配 (Mismatch string kernels) 以及独热表示 (One-hot representation) 描述符预测了蛋白质属性。结果表明，使用嵌入式描述符训练的模型预测能力与独热编码、氨基酸性质或字符串核错配描述符的预测能力相当，甚至超过这些模型；蛋白质特征工程工具包和氨基酸指数描述符的预测能力表现更差。所以尽管嵌入的维度数量级较低，不需要对齐、结构数据或相关氨基酸性质的选择，因此更容易获得，但它们仍能够实现准确的预测[47]。

表2 机器学习指导酶设计中常用的分子描述符

3 机器学习指导酶定向进化

机器学习通过虚拟设计和筛选来指导“小而精”突变体文库或突变体的构建，需要在各种不同定义的任务中提高计算机性能所需的算法和统计模型。因此，无论应用机器学习的目标是什么，成功与否都取决于输入到系统中的数据质量。酶定向进化过程中产生了大量实验数据，是开展机器学习的理想选择。但是，它同样需要高质量的数据，这也适用于理性设计[6]。总而言之，机器学习在加速蛋白质定向进化的进程中扮演着重要的角色，可通过对拟改造关键位点的准确预测减少实验工作量。

3.1 关键氨基酸残基定位与精简密码子设计

关键氨基酸残基定位技术是指基于蛋白质的结构，通过分子对接、分子动力学模拟，量子力学或机器学习等计算方法，定位与底物特异性及催化活性相关的关键氨基酸残基位点。然后通过引入合适突变，筛选获得高性能突变体。如Sun等[66]使用指纹图谱分析技术PLIP (Protein-ligand interaction profiler) 分析了与底物有相互作用的氨基酸残基位点，阐明了柠檬烯环氧化物水解酶LEH各个突变体与底物之间在动力学模拟过程中的原子细节问题；该团队使用该技术定位了塞格尼式杆菌Segniliparusrugosus来源的多结构域羧酸还原酶SrCAR中起催化作用的两个关键氨基酸位点K629及K528，揭示了其在腺苷化和硫酯化阶段通过盐桥作用稳定过渡态中间体的作用，对该酶的催化机制有了更深入的认识[67]；该团队进一步使用PLIP方法对A-domain和R-domain催化口袋氨基酸残基进行了相互作用图谱分析，共定位了底物周围17个关键氨基酸位点，通过突变体文库构建筛选获得了催化活力提升的突变体[68]。此外，该团队使用分子动力学模拟技术计算了嗜热厌氧菌Thermoanaerobacterbrockii来源的醇脱氢酶TbSADH中原子的运动轨迹，使用各个原子运动的自由程度RMSF (Root mean square fluctuation) 表征了蛋白质关键部位的构象变化，定位了两个氨基酸残基A85和I86，之后对这两个位点进行定点饱和突变，获得了最优突变体A85G/I86L，重塑了该酶的催化口袋，有效地将大体积的酮还原为具有高对映选择性 (～ 99% ee) 的手性醇产物[69]。

在蛋白质的定向进化过程中，最基本的挑战是筛选数量问题，通过精简密码子设计，构建“小而精”的突变体文库是克服这一挑战的有效方法，为此，Manfred Reetz团队开发了CAST/ISM技术体系[70-71]。在此基础上，Sun等又发展了单密码子饱和突变SCSM[72-73]、双密码子饱和突变DCSM[74]、三密码子饱和突变TCSM[75-77]，以及最近开发的理性聚焦迭代点突变 (Focused rational iterative site-specific mutagenesis, FRISM) 策略等[4]，可大大降低筛选工作量，快速获得有益突变体[78]。

通过简并密码子设计策略来构建“小而精”的高质量突变体文库，解决了定向进化中的筛选问题，这种半理性设计的方法为加速定向进化的进程打下基础。随着计算机技术的不断发展，机器学习算法用于关键氨基酸定位和精简密码子设计也得到了广泛关注，如Andreas Bommarius团队使用支持向量机算法成功识别定位了β-内酰胺酶 (β-lactamase) 中与催化活性有关的关键氨基酸位点[79]；Bruce Tidor团队使用LASSO算法通过预测化学特征间接识别定位了与酮酸还原异构酶 (Ketol-acid reductoisomerase, KARI) 活性相关的氨基酸位点[80]；Yun Tang 团队使用决策树、随机森林、提升法 (AdaBoost, AB) 训练模型，定位了葡萄糖醛酸转移酶 (UDP-glucuronosyltransferases, UGT) 催化底物代谢位点[81]。Mitsuo Umetsu团队使用高斯过程 (Gaussian processes, GP) 算法对荧光蛋白(fluorescent protein, GFP) 经过两轮筛选，最终得到优异突变体[82]。Frances Arnold团队使用K近邻、线性、决策树、随机森林 (Random forest) 等算法训练双加氧酶RmaNOD (Rhodothermusmarinunitric oxide dioxygenase) 模型，使用最优模型根据预测的适应度对理论库中每条序列进行排序，仅通过两轮共筛选805个突变体，成功获得两种对映体产物的优势突变体[21]。

3.2 机器学习在酶定向进化中的应用

通过直接从数据中建立模型，机器学习已经被证明是一种功能强大、高效和多用途的工具，可应用于各种领域，例如从文本和图像中提取抽象概念，或者在最复杂的游戏中击败人类等[83-84]。早在1992年，机器学习算法就被用于预测蛋白质二级结构[85]。此后，出现了新的机器学习版本，用于预测蛋白质结构、折叠、结合甚至催化活性，目的是处理有关突变体及其特性的累积信息[86]。“大数据”作为这些算法的训练集，以便用于预测新的和改进的突变体，从而有助于在特定位点上发生诱变，从而加速蛋白质的定向进化[87]。机器学习已然成为从实验数据中学习并指导蛋白质设计的有利工具[88]。表3列举了近5年来机器学习指导蛋白质设计的应用实例，涉及蛋白质的热稳定性、催化活性、对映体选择性、光敏性及可溶性等多个方面。其中针对常用的3种应用方法，如ASRA[89]、Innov′SAR[90]算法和ProSAR策略[91-92]展开深入阐述。

图4 ASRA应用于CAST/ISM酶立体选择性定向进化的流程图[89]

ASRA (Adaptive substituent reordering algorithm) 算法与传统的定量结构-活性关系 (Quantitative structure-activity relationships，QSAR) 方法不同，它不需要任何蛋白质的结构信息，其运算取决于识别蛋白质性质信息的基本呈现规律，从而使其能够在结构-功能关系不清楚的情况下进行预测。ASRA可替代传统的QSAR方法从目标突变体文库中经过最小样本量的筛选，识别出具有所需特性的潜在蛋白质突变体。Herschel Rabitz教授与Manfred Reetz教授合作，将ASRA与CAST/ISM方法结合起来使用，加速了黑曲霉Aspergillusniger来源的环氧化物水解酶ANEH的对映选择性进化[89]，其策略流程如图4所示。

表3 近5年机器学习指导蛋白质设计的部分应用实例

图5 Innov′SAR算法技术流程图[90]

Innov′SAR (Innovative sequence-activity relationship) 算法是一种创新的序列-活性关系方法，基于快速傅里叶变换 (Fast fourier transform, FFT) 等数字信号处理方法，将湿实验和蛋白质计算设计相结合。为了寻找所需的酶特性，建立了一个预测模型，在这种情况下，对映选择性是通过选择性因子E测得的，Innov′SAR算法的流程如图5所示。Bernard Offmann教授和Manfred Reetz教授合作，应用Innov′SAR算法寻找黑曲霉Aspergillusniger来源的环氧化物水解酶ANEH高度对映选择性突变体时，只需要序列信息和少量突变体实验数据，经过 (i) 编码阶段， (ii) 建模阶段和 (iii) 预测阶段，最后基于9个单点突变的组合 (29)，预测了512个突变体的对映选择性，并对候选基因进行了实验验证，获得了对映选择性较高的突变体。这种机器学习方法考虑了蛋白质序列中氨基酸之间的相互作用，而且速度非常快，为蛋白质进化和筛选提供了新的技术手段[6, 90]。

除了ASRA和Innov′SAR，蛋白质序列-活性相关性进化策略ProSAR (Protein sequence activity relationship)，是一种将统计学方法与定向进化相结合的技术，这项技术受到小分子药物设计方法定量构效关系QSAR和其他机器学习应用方法的启发，用于预测蛋白质组合文库中的突变对目标功能或特性的影响[92]。ProSAR驱动的酶进化可以分为以下几步：a) 通过在DNA亲本模板上引入随机突变构建酶的组合文库；b) 对功能多样性突变体的子集进行排序，并对数据进行统计分析和虚拟筛选；c) 分析各种突变体的影响，并将它们分为有益 (绿色)、有害 (红色) 或中性 (白色)；d) 从上一轮中选择活性高的突变体作为下一轮文库设计的亲本模板；e) 有益的突变通过半合成DNA混组带到下一轮，并摒弃有害突变体；f) 随着对突变群体的筛选，获得新的多样性突变体。循环往复多轮，直至筛选到符合需求的突变体为止，具体流程如图6所示[92]。

图6 ProSAR驱动的酶进化流程图[92]

4 结语及展望

酶设计改造从酶定向进化、半理性设计、理性设计再到如今的机器学习，经历了辉煌发展的30年。期间从Frances Arnold提出的酶定向进化第一定律“You get what you screened” (所筛即所得)，到Manfred Reetz提出的第二定律“You get what you designed” (设计即所得)[4]，但两者皆是基于突变体文库构建、设计和筛选而展开。如今，随着计算技术的不断进步，本文笔者提出第三定律“Design the right amino acids at the right positions” (正确位点引入正确突变，即精准设计)，旨在摒弃文库设计和筛选过程，而实现精准设计，直接输出单个或少数几个最优突变体正逐渐成为可能。

迄今为止，数据库中已经有数百万个蛋白质序列，数十万个蛋白质结构，数千个生物物理值以及数百个带注释的催化机制，为训练基于机器学习的预测因子提供了切实可行的方法。但是，机器学习在生物催化剂设计中的潜力尚未被充分发掘，仍然面临诸多挑战。如缺乏用于训练模型和测试模型的高质量统一的训练集和测试集、经典数据的不平衡和偏差、现有方法针对性较差等问题。然而，随着需求的增长和越来越多的科学团队在酶定向进化这个令人兴奋的领域开展深入研究，这些问题将会逐一得到解决。可靠的机器学习工具将为酶定向进化提供最佳的起点，还将为衍生模型、参数及其潜在的分子机理解析创造更多的研究手段，加速对酶的结构-功能关系的深入认识[22]。机器学习将为蛋白质设计改造提供强有力的工具，并助力酶定向进化在高性能催化剂设计上走向新的高度。