基于优化特征参量的蛋白质βαβ模体识别分析

2015-03-12 21:58姜雪于巍

江苏农业科学 2015年2期

姜雪　于巍

摘要：选取了来自1 423个相似性小于33%的蛋白质序列的1 459个βαβ模体和2 419个非βαβ模体，通过分析模体中各二级结构单元的分布情况，确定固定序列模式长。基于优化的氨基酸信息，利用离散增量算法识别βαβ模体。运用10-fold交叉检验和独立检验方法对算法进行检验，识别总精度分别达到79.4%和78.6%。

关键词：蛋白质；βαβ模体；离散增量；优化的参量；优化位点氨基酸；识别精度

中图分类号： Q51文献标志码： A文章编号：1002-1302（2015）02-0020-04

收稿日期：2014-04-09

基金项目：辽宁省教育厅教学改革立项（编号：2012411）。

作者简介：姜雪（1978—），女，黑龙江明水人，硕士，讲师，主要从事生物信息学研究。E-mail：shuidi780829@163.com。模体是具有特定功能或作为一个独立结构域一部分的相邻的二级结构的聚合体，是蛋白质家族组成结构和执行功能的重要部分，介于蛋白质二级结构和三级结构之间，充当三级结构的构件。近20年来，对简单模体如β-转角、β-发夹的预测[1-8]得到了很好的发展，主要方法集中在人工神经网络、支持向量机和统计方法上，且都取得了较好的预测效果。而βαβ是常见的复杂结构模体之一。如果2组平行的β折叠片通过α螺旋经过连接肽（Loop）回折2次，且β折叠之间有氢键相连，最终β折叠片的疏水侧链面向α螺旋的疏水面，彼此紧密装配，形成β-Loop-α-Loop-β结构，简记为βαβ，多倾向于形成右手扭曲的拓扑结构[9]。它包含大量的折叠信息，频繁地出现在每一个具有β折叠片的蛋白质结构中，常与形成功能结构位点和活性位点有关，同时βαβ模体上存在大量的功能位点，能为药物分子设计提供信息。因此对蛋白质的功能有着重要影响。正确地识别βαβ模体对研究蛋白质的空间结构和功能具有重要意义，对分子药物开发设计具有相应的理论价值。1983年，Taylor等运用和已知模板进行序列比对的方法对16个α/β类蛋白质包含的βαβ模体进行了预测，预测率达到70%[10]；1984年，Taylor等在统计βαβ模体的基础上用同样的方法对18个α/β类蛋白质包含的βαβ模体进行了预测，预测率达到75%[11]；1986年Wierenga等运用指纹图谱方法对PID数据集中的2 676条序列中的βαβ模体的ADP结合位点进行了预测[12]。可见，对复杂结构模体βαβ的预测研究工作还很少，但成功的预测却说明βαβ存在着功能位点，其理论预测是可行的。

本研究构建了2个数据集：一是来自1 423个相似性小于33%的蛋白质的1 459个βαβ模体和2 419个非βαβ模体；二是来自256个相似性小于25%的蛋白质的310个βαβ模体和480个非βαβ模体。通过分析模体中各二级结构单元的分布情况，确定了固定序列模式长为33个氨基酸残基，运用了一种基于优化特征参量的离散信息算法，识别了βαβ模体，取得了良好的效果。

1材料与方法

1.1数据

构建合理的数据集是蛋白质模体预测的关键，本研究中使用DSSP[13]（definition of secondary structure of proteins）数据库和PROMOTIF[14]软件来构建βαβ数据集，这是目前广泛应用的获得蛋白质特殊结构模体的方法。数据来自EVA（这是一种连续的、自动化、大规模的工作方式进行蛋白质结构预测算法评估的Web服务器http：//pdg.cnb.uam.es/eva/）。从中选取了1 423个相似性小于33%、分辨率高于2.5的蛋白质作为数据集1（set1）和256个相似性小于25%、分辨率高于3.0的蛋白质作为数据集2（set2）。选取的蛋白质需要满足：（1）每个蛋白质序列中至少包含一个βαβ模体；（2）剔除含有不规则氨基酸的模体。序列及其对应的二级结构信息按DSSP库确定，文中在使用时将二级结构分为3类：H、I、G归为α螺旋，用H表示；E归为β折叠；其他都归为无规卷曲，用C表示。对set1，获得二级结构为ECHCE模式的片断为 3 878个，利用PROMOTIF软件分析获得βαβ模体片段为1 622个，其中与ECHCE模式相匹配的1 459个片断确认为βαβ，其余2 419个确认为非βαβ；对set2，获得的二级结构为ECHCE模式的片断为790个，利用PROMOTIF获得与ECHCE模式相匹配的310个确认为βαβ，其余480个确认为非βαβ。

1.2序列固定模式长的选取

复杂结构模体是由简单的二级结构连接而成，其二级结构单元的种类、连接肽的长度等信息影响着复杂结构模体的形成及功能。因此有必要对2个数据集的βαβ模体序列片段长、组成单元β折叠长、连接肽loop长和α螺旋长进行统计，结果如表1和表2。

从表1和表2的数据看出，2个数据集中各二级结构单元的分布情况基本一致，2个数据集的模体平均长分别为33、31个氨基酸残基左右，左右两端β折叠长为5个氨基酸左右，α螺旋长为10个氨基酸左右，这也说明了二级结构单元在βαβ模体中分布的特定性。因此，选取适合的序列信息是预测的关键步骤，根据2个数据集中序列的平均长度，为使得表1set1二级结构单元长度统计

预测过程中信息更好的进入序列，确定固定序列长为33个氨基酸残基。参照文献[3]、[6]和[7]识别β发夹的思想，对βαβ模体进行以下3种截取方式，得到B00型、N05型和C29型。其具体截取方法为：

（1）以模体对应的二级结构CHC为中央位置对齐（B00型）：当序列对应的二级结构CHC为奇数时，序列对应二级结构CHC的左端和右端取相同个数的残基；当序列对应的二级结构CHC为偶数时，序列对应二级结构CHC的左侧比右侧多取一个氨基酸残基。

（2）以序列左端loop的起始位点作为序列的第5位点，选取序列（N05）。

（3）以序列右端loop的终止位点作为序列的第29位点，选取序列（C29）。

选取过程中，若序列长不足33个氨基酸残基时，添加空位补齐。截取示意图如图1。

同时，为考察模体序列中氨基酸的保守性，计算了位点信息矢量，Ci[15]定义如下：

Ci=100lgl（∑lj=1Pijlgpij+lgl）。

如果某一位点是完全保守的，可计算该位点Ci的值为100；如果该位点的氨基酸是随机分布的，同样可计算Ci的值为0。因此Ci取值在[0，100]之间。Ci的值在各自的取值区域内越高表明该位点的保守性越强。对set1的βαβ 3种取法对应序列位点的保守性计算结果如图2、图3、图4。

型左端氨基酸的保守性好于右端，这2种取法综合起来与B00型的保守性结果一致。因此本研究以位点氨基酸为参量来预测βαβ模体。

1.3计算方法

离散量是对离散性的度量，是信息系数之一，生物多样性指标和生物的关联性分析等都需要引入离散量。它是一种较好的模式识别分类器，离散量和离散增量定义如下：

定义1：对于s个信息符号的状态空间X，ni表示第i状态出现的个数，离散源X：[n1，n2，…，ns]的离散量为：

D（X）=D（n1，n2，…，ns）=NlogbN-∑si=1nilogbni。（1）

定义2：对于2个离散源X：[n1，n2，…，ns]和Y：[m1，m2，…，ms]，它们的离散增量为

Δ（X，Y）=D（X，Y）-D（X）-D（Y）=（M+N）lg（M+N）-∑si=1（mi+ni）lg（mi+ni）-MlgM-NlgN+∑si=1milgmi+∑si=1nilgni。（2）

其中D（X，Y）是混合离散源X+Y：[n1+m1，n2+m2，…，ns+ms]的离散量，N=∑si=1ni，M=∑si=1mi。可以证明，离散增量的取值范围是0≤Δ（X，Y）≤D（M，N）。

2个离散源之间的离散增量Δ（X，Y）值越小，说明这2个离散源的相似程度越大，而Δ（X，Y）值越大，说明这2个离散源的相似性越差。

本研究中选取位点氨基酸作为参量，对于βαβ和非βαβ模体的3种选取模式的任何一种，其位点氨基酸维数分别为（21×33）（21表示20种氨基酸和一个空位，33表示固定序列长），共得到2 079（21×33×3）维向量。任一待测序列应用公式（2）得到2个离散增量值，哪一个值小，则被判断为哪一类模体。

1.4检验方法

检验方法使用目前广泛应用的k-fold交叉检验和独立检验。k-fold交叉检验即随机、均匀地将数据集分为k个子集，依次取出一个子集作为测试集，其余k-1个子集作为训练集，此过程循环k次，识别的结果取k次的平均，本研究中k取10。独立检验是指训练集和检验集相互独立，即训练集中的数据不会出现在检验集中，更加客观地反应实际问题和预测之间的差别。

1.5精度评价指标

本研究中计算了βαβ的正确识别率（即识真的能力）Q（βαβ）、非βαβ发夹正确识别率Q（nβαβ）、βαβ发夹识别的预测率[即辨假的能力S（βαβ）]、非βαβ发夹识别的预测率S（nβαβ），识别总精度（Acc）和相关系数（MCC），定义如下：

Q（βαβ）=PP+U×100，Q（nβαβ）=NN+O×100，

S（βαβ）=PP+O×100，

S（nβαβ）=NN+U×100，Acc=P+NO+N+U+O×100，

MCC=（P×N）-（O×U）（P+O）×（P+U）×（N+U）×（N+O）。

这里P、U、N、O分别表示βαβ被正确识别出来的序列数目、βαβ没有被正确识别出来的数目、非βαβ被正确识别出来的序列数目、非βαβ没有被正确识别出来的数目。

2结果与分析

2.1以位点氨基酸为参量的预测结果

由于氨基酸在蛋白质序列中具有很强的保守性，以位点氨基酸出现的频率为参量，输入到离散增量的算法中，得出每条序列的离散量值，用上文中的识别方法作判断，对set1和set2 3种截取模式的10-fold交叉检验结果如表3和表4。表3set1的10-fold交叉检验预测结果

截取模式Q（βαβ）Q（nβαβ）S（βαβ）S（nβαβ）Acc（%）MCCB0082.255.652.484.065.50.371N0580.862.556.185.669.30.419C2983.153.751.582.464.60.362

表4set2的10-fold交叉检验预测结果

截取模式Q（βαβ）Q（nβαβ）S（βαβ）S（nβαβ）Acc（%）MCCB0083.958.754.786.068.10.417N0583.959.855.386.368.80.426C2984.856.153.486.266.80.402

从表3和表4的数据可看出，两数据集中βαβ的识真能力均达到80%以上，好于辩假能力，但非βαβ的识真能力低于辩假能力，说明可以很好地识别出βαβ，排除非βαβ。数据显示，3种截取模式中N05型的识别总精度好于B00型和C29型，set1的识别精度达到69.3%，相关系数达到0.419。

2.2优化的位点氨基酸（A）的预测结果

上述计算中选取参量的维数较高，计算中常会由于高维参量引起维数灾难问题，因此有必要将位点氨基酸通过降维来避免过训练发生，从而提高识别的效果。下面选取mRMR（maximum relevance mimimum redundancy）方法来进行降维。mRMR方法是一种基于互信息的特征筛选方法：利用互信息计算特征参量与分析目标间的相关性和特征之间的冗余性，根据最大依赖性来优先选取具有最小冗余性的n个特征，本研究中用已编译成程序[16]的mRMR软件包实现。2个数据集的序列模式长为33个氨基酸残基的序列中提取的2 079维位点氨基酸通过筛选，累积贡献率达到90%以上的前100维作为优化的位点氨基酸（A）。运用上述算法2个数据集的10-fold交叉检验结果如表5和表6。