药物-靶点亲和力预测的全局特征提取策略

2022-03-22 03:35彭泽佳张晓龙
计算机工程与设计 2022年3期
关键词:特征向量亲和力特征提取

彭泽佳,张晓龙+

(1.武汉科技大学 计算机科学与技术学院,湖北 武汉 430065; 2.武汉科技大学 大数据科学与工程研究院,湖北 武汉 430065; 3.武汉科技大学 智能信息处理与实时工业系统湖北省重点实验室,湖北 武汉 430065)

0 引 言

智能计算预测药物靶点能为药物研制降低近43%的实验成本[1]。药物靶点亲和力预测是判断药靶相互作用的关键。药物靶点亲和力预测领域中,分子对接[2,3]方式无法作用于大规模数据集,基于相似度计算的KronRLS[4]和SimBoost[5]算法依赖特征工程导致相似空间中药物靶点特征表达受到限制。为了克服这些缺陷,DeepDTA[6]和Wide-DTA[7]利用1D卷积神经网络(convolutional neural network,CNN)自动学习提取药物靶点有效特征;DeepGS[8]运用双向门控循环单元(bi-directional gated recurrent unit,BiGRU)和图注意力网络(graph attention network,GAT)分别提取药物SMILES序列和药物指纹(fingerprint(fp))的有效特征,利用1DCNN提取靶点蛋白序列的有效特征。利用深度学习模型提取特征是具有一定的优势,但是,这些单模型所能提取到的特征种类会受到限制。

近年来,深度学习混合模型在自然语言处理领域应用广泛。1DCNN与双向长短时记忆(bi-directional long short term memory,BiLSTM)神经网络所形成的混合模型能够有效地提取文本数据特征。靶点蛋白的线性序列能决定蛋白质的三维结构[9],药物的高维结构也能从SMILES(simplified molecular input line entry system)序列中被获取。因此,本文针对药物靶点亲和力预测单模型提取特征种类受限问题的主要研究内容如下:

(1)利用BiLSTM代替传统循环神经网络(recurrent neural network,RNN)和长短时记忆(long short term memory,LSTM)神经网络,提取药物靶点序列局部特征的上下文联系。

(2)利用CNN和BiLSTM的混合模型构建药物靶点特征提取器,并在策略设计中加入特征并行提取和特征融合技术。利用1DCNN提取局部特征,利用BiLSTM提取上下文联系,并行提取的局部特征和上下文特征拼接融合为以向量表示的用于药物靶点预测的特征信息。

1 全局特征提取策略

本文的全局特征提取策略以深度学习算法为特征计算基底,针对不同类型的特征构建不同的特征提取器并行提取,分为药物靶点序列特征向量化、局部特征提取、上下文特征提取、特征融合等4个步骤。

1.1 药物靶点序列特征向量化

序列分割是药物靶点序列数据特征向量化的第一步。本文采取分子分割方式,即以化学分子和氨基酸分子为分割单元拆分药靶序列数据。该分割方式习得的词向量能够通过空间嵌入原理反映分子之间的分布特性和相互作用关系。以空格为间隔,将蛋白质序列分割成单个氨基酸分子,将药物SMILES序列分割成单个化学分子,分割原则为直接拆分,不改变分子的相对位置和排列顺序。具体示例靶点蛋白序列片段“MTVKTEA”如下

MTVKTEA→M T V K T E A

整数编码是药物靶点序列数据特征向量化的第二步,致力于建立分割单元与嵌入空间中特征向量的映射联系。给分割单元集中每个独立的分割单元以唯一的整数表示,整数0不标记任何的分割单元,分割单元集中药靶分子的选取与DeepDTA[6]保持一致。定长处理分割后序列使其在词嵌入学习过程中获取有效特征表示。整数0用于输入序列不足固定长度时的零填充处理,并映射到词嵌入矩阵第0行行向量(零向量)。具体示例SMILES序列片段“COC1=C”如下

[C O C 1 = C]→[42 48 42 35 40 42]

词嵌入式特征向量化是药物靶点序列数据特征向量化的最后一步,即利用Keras框架中的Embedding层将分割编码后的序列数据转化成实数矩阵,并随着后续预测任务学习更新词向量,使其具有语义信息。序列数据在Embedding层中先转化为独热(one-hot)稀疏矩阵,通过线性变换转化为一个低维稠密矩阵,该矩阵即为输入序列的特征向量矩阵。Embedding层词向量训练是基于神经网络的分布式词嵌入训练方法之一,其本质上即为学习神经网络中的一层全连接层参数,具体原理如图1所示,V为由分割单元所组成的词汇表大小,N为人为设定的词嵌入维度,全连接层参数矩阵WV×N={wij} 是词嵌入矩阵,该矩阵的行向量即为相应行索引下标所对应整数编码的分割单元的特征向量,该矩阵是所有分割单元的特征向量矩阵。

图1 基于神经网络的词嵌入原理

1.2 局部特征提取

药物靶点线性序列由不同功能的子序片段以一定次序组合而成[10,11]。因此,本文选用1D卷积神经网络(CNN)提取药物靶点线性序列局部特征。

假设药物靶点序列W={w(1),w(2),…,w(i)}(1≤i≤l),l为输入序列W中分割单元个数。首先,将序列W利用Embedding层特征向量化为特征矩阵Sj={e(w(1)),e(w(2)),…,e(w(i))}(1≤i≤l), 其中e(w(i)) 为对应分割单元w(i) 的n维词嵌入特征向量,e(w(i))∈n,Sj∈l×n; 将Sj作为卷积层输入,用t个大小为r×n滤波器对特征矩阵Sj执行步长s=1的卷积操作,提取Sj的局部特征值fi(1≤i≤l-r+1), 得到局部特征向量C, 计算如下

(1)

C={f1,f2,…fl-r+1}

(2)

di=max(C)或者di=ave(V)

(3)

最后,将池化后得到的所有特征值di(1≤i≤t) 输入全连接层(神经元个数为n)进行特征综合提取,最终得到有效的局部特征向量V

V={d1,d2,…,dn}

(4)

1.3 上下文特征提取

大自然中存在着多种复杂的类似于人类沟通语言的“生命语言”,其完成着细胞间大部分重要信息的传递。其中,蛋白质序列形式上虽然为生物序列但组成结构上具有语言特性,存在着上下文依赖联系,序列上单个残基与其之前和之后的所有残基均相关,残基之间存在着复杂的长距离依赖信息[10],根据残基的上文信息和下文信息,能更准确地习得其语义。可用于药物识别的SMILES字符串中蕴藏着丰富的信息,其化学分子之间和化学片段之间均存在着类似于文本上下文的语义信息,并可通过词嵌入等算法习得其特定的特征模式[11]。

1D卷积神经网络(CNN)能够运用局部感受野捕获有效的局部特征,但是无法捕获局部特征之间的上下文联系。传统的RNN可以有效挖掘时序方向上的上下文语义联系,但其对很久之前信息的感知能力会随着输入序列长度的增加而下降,进而产生梯度爆炸和长时依赖问题[12];长短时记忆(LSTM)神经网络[13]能够克服RNN的缺陷,但LSTM只能捕获药靶序列的前向依赖联系,无法提取序列的后向依赖信息;而从LSTM改进而来的BiLSTM能够结合前向与后向信息。药物靶点序列片段的语义特性既与其之前的片段信息有关,也与其之后的片段信息密切联系,因此,利用BiLSTM代替RNN和LSTM,既引入了下文信息,也有效避免了传统循环神经网络梯度消失等问题。

利用BiLSTM进行局部特征的上下文特征提取。假设由卷积层提取的药物靶点局部特征矩阵为Sk={s(w(1)),s(w(2)),…,s(w(i))}(1≤i≤l-r+1), 其中,Sk∈(l-r+1)×t,t为滤波器数量。BiLSTM模型,如图2所示,是由两个上下叠加的LSTM网络组成。将Sk每个时间步上的局部特征向量s(w(i)) 作为每个时刻t的BiLSTM的输入,同一时刻t存在着两个方向相反的LSTM门。LSTM门中利用记忆存储单元捕获之前长时间段的历史信息,并利用各种门机制让信息选择式传递,在LSTM门中特征选择方式为:

(5)

(6)

(7)

(8)

(9)

(5)最后获得t时刻的上文特征信息输出ht

(10)

其中,Wf、Wi、Wc、Wo分别代表遗忘门的权重矩阵、输入门的权重矩阵、当前输入单元状态的权重矩阵和输出门的权重矩阵;bf、bi、bc、bo分别代表遗忘门偏置项、输入门偏置项、当前输入单元偏置项和输出门偏置项。

图2 融合模型原理

(11)

(12)

(13)

BiLSTM在提取上下文特征信息过程中,利用前向LSTM模型提取子序片段上文特征信息,如式(11)所示;利用后向LSTM模型提取子序片段下文特征信息,如式(12)所示;最终,以concat形式拼接获得包含上下文特征信息的特征矩阵,如式(13)所示。

1.4 特征融合

将局部特征向量和上下文特征向量使用keras的concatenate()方法进行融合拼接,如图2所示,得到药物或者靶点最终的特征向量。特征融合代码逻辑如下:

output=keras.layers.concatenate([cnn_output, cnn_bilstm_output],axis=-1)

1.5 全局特征提取策略描述及算法步骤

本文的全局特征提取策略,先将药物靶点序列特征向量化,再利用局部特征提取器和下文特征提取器并行提取药靶序列的局部特征和局部特征之间的上下文特征,最后将这两种互补特征进行融合,该策略适用于药物和靶点蛋白的特征提取。

本文的局部特征提取器由输入层、词嵌入层、CNN层、特征存储融合层、全连接层以及全局最大池化层组成,如图2左分支所示。首先,由词嵌入层将分割编码后的药物靶点序列特征向量化,词嵌入维度为128维;后接四层卷积层,使用不同窗口大小的滤波器各128个并行提取药物靶点序列不同子序片段特征;再将输入特征矩阵和每层卷积操作所获取的局部特征矩阵存储进由keras中concatenate()方法搭建的特征融合层,实现不同类型特征的存储与融合;再经Dense操作在每个时间步上对融合特征向量进行特征的综合再提取,可使所提取的特征具有更高层的生物含义;最后,使用全局最大池化层提取每个特征维度上的关键信息,通过取局部特征区域的最大值实现特征压缩,得到最终有效的药物靶点局部特征向量。

本文的上下文特征提取器由输入层、词嵌入层、卷积池化层、BiLSTM层、全连接层以及全局平均池化层组成,如图2右分支所示。首先,由词嵌入层将分割编码后的药物靶点序列特征向量化,词嵌入维度为128维;后接四层卷积层和一层最大池化层,使用相同窗口大小、不同数量的滤波器提取药靶序列局部特征,并下采样提取关键局部特征;再利用BiLSTM层捕获局部特征之间的上下文联系;再经全连接层综合提取每个时间步上的上下文特征;最后,在特征维度上利用全局平均池化取特征均值,得到最终有效的药物靶点上下文特征向量。

药物靶点序列全局特征提取流程如图3所示,流程解释如下:

步骤1 从数据集中加载原始药物靶点序列数据。

步骤2 药物靶点序列特征向量化,具体操作见1.1节。

①以分子为分割单元分割药物靶点序列数据;②整数编码分割后序列;③利用Embedding层转化药靶序列为特征向量矩阵。

步骤3 局部特征和上下文特征并行提取。

A)局部特征提取:①1DCNN并行提取不同局部片段特征;②concat存储融合词嵌入和各类局部特征;③Dense(带TimeDistributed)进行特征的综合再提取;④GlobalMaxPooling1D提取特征维度上的最大值;

B)上下文特征提取:①1DCNN+MaxPooling1D提取局部特征;②BiLSTM提取局部特征的上下文特征;③Dense(带TimeDistributed)进行特征的综合再提取;④GlobalAveragePooling1D提取特征维度上的平均值;

步骤4 concat特征融合局部特征和上下文特征,得到药物或者靶点的全局特征向量。

步骤5 concat特征融合药物全局特征向量和靶点全局特征向量,得到药物靶点对特征向量。

图3 药物靶点结合亲和力预测实验流程

2 药物靶点结合亲和力预测

本文的预测模型沿用DeepDTA预测模型部分[6]。将药物靶点对特征向量输入由全连接层和dropout机制组成的预测模型中得到药物靶点结合亲和力预测值,使用均方误差(MSE)作为损失函数,如式(14)所示,其中V为真实值向量,Y为相应的实际输出的预测值向量,N为采样数

(14)

3 实验与分析

3.1 实验环境

实验环境如下:电脑端的操作系统为windows10,CPU为i5-7500,64位操作系统,8 GB内存;服务器端的GPU资源为8个16 GB Tesla V100 SXM2,高性能服务器,125 GB运存,个人用户目录为3 TB内存。

3.2 实验数据

本文使用药物靶点亲和力预测领域的基准数据集KIBA[14]和Davis[15]评估模型性能,其基本信息和实验用度见表1。Davis数据集包含442条蛋白质氨基酸序列和68条药物SMILES序列,其中69%的药物靶点相互作用对的结合亲和力值为10 000 nM(pKd=5)预示着弱相互作用和无相互作用,同时意味着数据集中负样本数偏多。所以,为了稳定数值分布,He等[5]将原始的Kd值映射为对数空间中的pKd值,转化公式如下

(15)

KIBA数据集起源于一种命名为KIBA的方法。KIBA方法利用优化Ki、Kd和IC50所包含的统计信息一致性来构建KIBA值。KIBA数据集由229条独立蛋白质氨基酸序列和2111条独立药物SMILES序列组成。本文使用经过过滤的KIBA数据集版本,其中每个药物和靶点至少发生10次相互作用[5]。

表1 实验数据集分布

3.3 评价指标

本文通过计算Concordance Index(CI)和Mean Squared Error(MSE)指标来衡量所提模型对药靶结合亲和力预测任务的性能。CI评估输出连续值模型的排序性能

(16)

该指标衡量两个随机药靶对的预测结合亲和力值是否与它们的真实结合亲和力值有着相同的顺序。其中bx是两者中较大结合亲和力δx的预测值,by是两者中较小结合亲和力δy的预测值,Z为归一化常量, h(m) 是一个分段函数[4]

(17)

MSE衡量预测值向量和真实值向量之间的不同,其原理已经解释于2节。

3.4 实验参数

本文实验参数的选取与药物靶点序列特性相关,参数改变会直接影响模型性能。在参数设置时采取5折交叉验证评估模型性能,测试结果取测试集上的5次平均测试性能。Davis数据集在模型构造时引入dropout机制减缓训练时可能存在的过拟合情况。KIBA数据集在卷积操作时引入

表2 局部特征提取器参数设定

表3 全局特征提取器参数设定

表4 实验超参数设定

BatchNormalization机制加速收敛。具体参数设定见表2、表3、表4。

在设定局部特征提取器参数时,药物SMILES序列滑动窗口大小比较[2,4,6,8,12,16],靶点氨基酸序列滑动窗口大小比较[3,5,7,11,15],滑动窗口数量分别比较[64,96,128,256],dropout分别比较[0.1,0.3,0.5];在设定全局特征提取器参数时,药物SMILES序列滑动窗口大小比较[4,6,8,12],靶点氨基酸序列滑动窗口大小比较[5,7,8,11],过滤器数量逐层递加对比实验,池化窗口大小对比了[2,4],下采样因子对比了[1,2],padding方式对比了[“SAME”,”VALID”],BiLSTM隐藏大小对比了[64,128,256,512],Dense隐藏大小随着LSTM层的隐藏数对比了[100,200,400,800,1000];在设定超参数时,学习率对比了[0.01,0.001,0.0001],因为KIBA数据集的大小近乎为Davis的4倍,故KIBA数据集的epoch对比实验了[100,150,200,300],选取200时的特征提取效果最佳,Davis的epoch对比实验了[50,100,150,200],选取100时的特征提取效果最佳;batch大小对比实验了[64,128,256,512]。参数对比实验时均采取控制变量法。

3.5 实验结果及分析

首先,本文将基于深度学习的单模型和混合模型进行对比实验,实验结果见表5和表6。单CNN模型结果选自DeepDTA[6],单BiLSTM模型和CNN-BiLSTM串行混合模型均抽取自本文策略所构模型中相应部分。

表5 KIBA数据集上单模型与混合模型结果对比

表6 Davis数据集上单模型与混合模型结果对比

如表5所示,在KIBA数据集上,本文方法比单CNN模型在平均CI指标和平均MSE值上分别提升了2.1%和降低了2.8%,比单BiLSTM模型在平均CI指标和平均MSE值上分别提升了1.3%和降低了1.7%,比CNN-BiLSTM串行混合模型在平均CI指标和平均MSE值上分别提升了0.4%和降低了0.6%。如表6所示,Davis数据集上的本文方法性能均优于单CNN模型、单BiLSTM模型和CNN-BiLSTM模型性能。如表5和表6共同所示,本文的深度并行全局特征提取策略,利用CNN提取药靶序列局部特征,利用CNN-BiLSTM提取上下文特征,将两种并行提取的互补特征进行融合,取得了比单模型和串行混合模型都好的预测性能,同时能够适用于不同的药物靶点数据集。

其次,本文所提的全局特征提取策略还与药物靶点亲和力预测中的经典以及前沿模型结果进行对比,实验结果见表7和表8。KronRLS[4]算法和SimBoost[5]算法引入特征工程构建的相似度矩阵预测药物靶点亲和力,有效解决了传统分子对接[2,3]难以作用于大规模数据集的问题,但是药物靶点在相似空间中的特征表达受到限制,实验结果显示本文方法及其它深度学习方法取得了更好的预测结果;DeepDTA[6]模型利用1D卷积神经网络(CNN)自动学习提取药物靶点特征,有效解决了人工提取特征的缺陷,提高了预测性能,但是CNN仅能提取局部特征而忽略了特征之间的上下文联系,实验结果显示本文方法取得了更好的预测结果;DeepGS[8]利用GAT和BiGRU分别提取药物指纹(fp)和SMILES序列特征,利用CNN提取靶点蛋白特征,有效增强了药物特征表示却忽视了靶点蛋白的特征表示,实验结果显示本文方法取得了更好的预测结果。

表7 KIBA数据集的结果对比

表8 Davis数据集的结果对比

4 结束语

本文为有效解决单模型提取特征种类受限问题,提出了一种深度并行全局特征提取策略。该策略利用CNN和特征存储融合层构建局部特征提取器,实现了局部特征有效地提取、存储与压缩,并缓解了数据集差异对特征提取效率的影响;利用CNN-BiLSTM串行混合模型构建上下文特征提取器,提取局部特征之间的上下文联系;最后,特征融合这两种互补特征得到药物靶点的全局特征向量。本文致力于设计全局特征提取策略,在利用词嵌入特征向量化药靶序列时只采用了基本的词嵌入方式(Embedding),后期会研究不同的词嵌入生成方式对药物靶点亲和力预测的影响。

猜你喜欢
特征向量亲和力特征提取
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
一类三阶矩阵特征向量的特殊求法
基于Daubechies(dbN)的飞行器音频特征提取
Just for today
周毅:做个有亲和力的气质女
矩阵方法求一类数列的通项