基于网络公开测序数据的K326烟草线粒体基因组RNA编辑位点的鉴定与分析

2021-06-24 07:09杨健康
烟草科技 2021年6期
关键词:密码子线粒体位点

王 淮,杨健康

大理大学基础医学院,云南省大理市雪人路大理大学下关校区 671000

转录后RNA 发生的碱基增加、丢失或转换等现象被称为RNA 编辑,RNA 编辑如果发生在mRNA 上会使密码子发生改变,是mRNA 前体的一种加工方式[1]。迄今为止,真核生物的tRNA、rRNA和mRNA中均发 现了RNA编辑的现象,该现象在细胞核和细胞器如线粒体中均有发生[2]。

RNA 编辑在生物学上具有重要意义,在高等植物体内,RNA 编辑大多发生于线粒体和叶绿体中。非编码区上的RNA 编辑在mRNA 剪接中起着重要作用[3],而基因编码区上的RNA 编辑会引起氨基酸的变化并影响蛋白的功能[4]。在高等植物线粒体中,RNA 编辑是线粒体产生功能蛋白必不可少的步骤,RNA 编辑的异常会影响线粒体功能,导致植株生长缓慢。编码区的RNA 编辑常发生在密码子的前2 个碱基中,主要是胞嘧啶(C)转换为尿嘧啶(U),且氨基酸的亲疏水性常发生变化[5]。在高等植物线粒体基因中,RNA 编辑是普遍存在的现象[6]。不同植物的线粒体RNA 编辑位点数量差异较大。目前,在绿藻中尚未发现RNA编辑位点,而在苔藓植物中发现了2 000 多个位点[7],在裸子植物中约有500 个位点[8],在被子植物中发现了200 到700 个位点[9-10]。

烟草(Nicotiana tobacum)是一种重要的经济作物,可作为烟草工业的原料,同时也是分子生物学和基因工程研究的模式植物[11]。对烟草RNA 编辑的研究有助于深化对RNA 编辑生物学功能的认识,有益于利用RNA 编辑调控基因表达以改进烟草的农艺性状,对拓宽烟草育种途径有着重要意义。烟草线粒体基因组大小为430 kb 左右,含180 个基因。其中超过150 个基因均是编码蛋白质或开放阅读框的基因,也包括少量编码tRNA 的基因。通过一代、二代测序技术,发现了烟草线粒体中的633 个RNA 编辑位点[12]。目前,关于利用多器官RNA-seq 测序数据鉴定烟草线粒体RNA 编辑位点的研究鲜见报道。为此,本研究中以烟草K326 品种的花、叶、根3 种器官的转录组和基因组测序数据为基础,系统鉴定烟草线粒体基因组中胞嘧啶转换为尿嘧啶的RNA 编辑位点,旨在比较不同器官RNA 编辑位点的差异,为进一步研究RNA 编辑在烟草中的生物学功能提供借鉴。

1 材料与方法

1.1 数据及实验设计

烟草线粒体基因组参考序列、RNA-seq 测序数据和基因组测序数据均下载于美国国家生物技术信息中心(NCBI)网站。烟草线粒体基因组参考序列号为NC_006581.1,长430 597 bp,包含180 个基因。RNA-seq 测序数据和基因组测序数据来源于Sierro 等[13]基于二代测序的烟草基因组研究,研究对象为烟草品种K326,在NCBI 的编号为SRP029184。

1.2 测序数据比对

使用FASTQC 软件对烟草基因组和RNA-seq测序数据进行质量控制,评估测序数据质量,去除质量差的碱基序列,同时使用NGS QC Toolkit 软件去除接头序列[14]。使用GSNAP 软件进行RNA-seq 和基因组测序数据与线粒体参考基因组的比对,确定测序序列在线粒体基因组中的位置[15]。使用Samtools 软件对比对结果做进一步分析,并利用Samtools 将sam 转换为bam 文件[16]。使用Picard 软件将比对到基因组相同位置的重复测序序列标记出来。为保证比对准确,减少比对导致的假阳性RNA 编辑位点,用REDItools 软件的REDItoolBlatCorrection.py 脚本进行比对,检测可能比对到多个位置的序列,这些序列可导致后续RNA 编辑位点鉴定错误[17]。最后用这些序列与GSNAP 软件的比对结果进行比较,校正GSNAP软件的比对结果。

1.3 鉴定RNA 编辑位点

使用REDItools 软件中的REDItoolDnaRna.py脚本以及RNA 和DNA 测序数据的比对结果识别C-U 型RNA 编辑位点,参数设置为:-n 0.1(RNA 编辑位点的编辑效率),-v 2(支持变异碱基的RNA测序序列数量),-c 10,10(分别是DNA 和RNA 的位点测序覆盖度阈值),其他参数采用默认值。为提高RNA 编辑位点鉴定的准确性,得到结果后还需要去除每个位点的平均质量得分低于30 的RNA 编辑位点,以及在基因组DNA 上存在SNP 位点的RNA 编辑位点。分别使用花、叶、根的数据鉴定RNA 编辑位点。使用软件包Annovar 对RNA编辑位点进行注释,将位点注释到基因上,并判断氨基酸是否改变[18]。通过GeneCards 网站(https://www.genecards.org/)查询RNA 编辑位点所在基因的功能。

2 结果与分析

2.1 RNA 编辑位点

由图1 可见,共鉴定出4 212 个RNA 编辑位点,其中464 个位点已被报道,其余为本研究中新发现的位点。根中共鉴定出2 368 个RNA 编辑位点,位点的平均测序深度为32×;花和叶中分别发现2 155 个和2 923 个RNA 编辑位点,每个位点的平均测序深度分别为30×和41×。在全部RNA编辑位点中,1 274 个位点(占所有位点的30.2%)位于99 个蛋白编码或开放阅读框基因上(表1),其中产生新的终止密码子(无义突变)或导致终止密码子丢失的位点共计62 个(表2);40 个位点(占所有位点的1.0%)位于8 个RNA 基因(tRNA)(表1);2 898 个位点位于基因间区,占所有位点的68.8%。在线粒体编码的153 个蛋白编码基因中,99 个基因(占所有蛋白编码基因的64.7%)存在RNA 编辑位点;线粒体编码的27 个RNA 基因中在8 个基因(占所有RNA 基因的29.6%)上发现了RNA 编辑位点。蛋白编码基因ccmFN、mat-R、rps3 分布的RNA 编辑位点最多,分别有84、61、48 个;发现RNA 编辑位点最多的RNA 基因为trnY(gua)、trnS(gcu)、trnH(gug),分别有9、7、7 个。

表1 线粒体基因上的RNA 编辑位点Tab.1 RNA editing sites in mitochondrial genes

表1 (续)

表2 无义突变或终止密码子丢失的RNA 编辑位点Tab.2 RNA editing sites for nonsense mutations or stop codon loss

图1 RNA 编辑位点在烟草线粒体基因组上的分布Fig.1 Distributions of RNA editing sites in mitochondrial genome of tobacco

2.2 蛋白编码基因上密码子变化

1 274 个RNA 编辑位点位于99 个蛋白编码或开放阅读框基因,占所有RNA 编辑位点的30.2%。其中,非同义变异826 个,同义变异448个,非同义位点是同义位点的1.8 倍。同义位点中,427 个是密码子的第3 位发生编辑,21 个是密码子的第1 位发生编辑。非同义位点中,375 个是密码子的第1 位发生编辑,451 个是密码子的第2位发生编辑。

非同义位点中,脯氨酸(Pro)转变为亮氨酸(Leu)和丝氨酸(Ser)转变为亮氨酸(Leu)的占比最大(图2)。直接由亲水氨基酸变为疏水氨基酸的有344 个,直接由疏水氨基酸变为亲水氨基酸的有33 个;在亲水氨基酸内转变方面,亲水性增加的有79 个,疏水性增加的有190 个,亲疏水性不变的有16 个;在疏水氨基酸内转变方面,疏水性增加的有55 个,亲水性增加的有47 个。非同义变异中疏水性增加的共计589 个(占非同义变异的77%),亲水性增加的共计159 个。

图2 非同义RNA 编辑位点氨基酸的转变Fig.2 Conversion of amino acids at non-synonymous RNA editing sites

2.3 叶的RNA 编辑位点

叶中发现了2 923 个RNA 编辑位点,其中887个位点位于86 个蛋白编码基因,22 个位点位于6个RNA 基因,剩下的2 014 个位点位于基因间区。叶的全部RNA 编辑位点中,918 个位点为叶的特异位点。这些特异位点中,222 个位点位于57个蛋白编码基因,12个位点位于5个RNA 基因,其余的684 个位点位于基因间区。在叶的所有特异位点中,10 个位点是产生新终止密码子的无义突变,导致9 个基因mat-R、cob、rpl5、orf152、ccmFN、orf103c、orf131b、orf103d、orf159b 编码的蛋白成为截短蛋白。

2.4 花的RNA 编辑位点

花中鉴定出了2 155 个RNA 编辑位点,其中746 个位点位于78 个编码蛋白的基因,20 个位点位于5 个RNA 基因,另外1 389 个位点定位于基因间区。花的全部RNA 编辑位点中,464 个位点为花的特异位点。这些特异位点中,13 个位点位于5 个RNA 基因,136 个位点位于40 个蛋白编码基因,余下的315 个位点位于基因间区。花的特异位点中,11个位点是产生新终止密码子的无义突变,导致11个基因mat-R、orf215、ccmC、rps14、orf132、orf130a、ccmFN、cox1、orf274、rps4、orf125f 翻译过早终止。

2.5 根的RNA 编辑位点

根中发现了2 368 个RNA 编辑位点,其中4 个RNA 基因上有13 个位点,82 个蛋白编码基因上有735 个位点,另外基因间区有1 620 个位点。根的全部RNA 编辑位点中,679 个位点为根的特异位点。这些特异位点中,4 个位点位于2 个RNA 基因,208 个位点位于57 个蛋白编码基因,还有467个位点定位于基因间区。679 个根的特异位点中有7 个是产生新终止密码子的无义突变,导致7个 基 因atp6、cob、orf25、orf132、ccmFN、orf111b、orf122b 编码的蛋白截短;4 个是导致终止密码子丢失的编辑位点,导致4 个基因orf171a、orf160、rps4、orf166b 的翻译不在原位置停止,得到肽链更长的蛋白质。

2.6 比较根、叶、花的RNA 编辑位点

比较烟草根、叶、花的RNA 编辑位点,发现不同烟草器官的RNA 编辑位点存在很大差异。花的RNA 编辑位点最少(2 155 个),其次为根(2 368个),叶的RNA 编辑位点最多(2 923 个),3 种器官共有的位点有1 083 个。叶的特异位点918 个,其中无义突变的位点有10 个;花的特异位点464 个,其中无义突变的位点有11 个;根的特异位点679个,无义突变或导致终止密码子丢失的位点有11个(表2)。叶的特异位点里存在10 个无义突变,共影响了mat-R、cob、rpl5、orf152、ccmFN、orf103c、orf131b、orf103d、orf159b 9 个基因,因此得到截短的蛋白;花的特异编辑位点里有11 个无义突变,分别位于mat-R、orf215、ccmC、rps14、orf132、orf130a、ccmFN、cox1、orf274、rps4、orf125f 11 个基因;根的特异编辑位点里有11 个无义突变或导致终止密码子丢失的位点,共影响了atp6、cob、orf25、orf132、ccmFN、orf111b、orf122b、orf171a、orf160、rps4、orf166b 11 个基因。比较3 种器官的特异无义突变的RNA 编辑位点,发现其所在基因参与了氧化呼吸链的电子传递、蛋白合成等生物功能。

3 讨论

以二代测序为代表的高通量测序可发现部分编辑的位点。本研究中通过对烟草基因组和转录组基于二代测序得到的数据进行分析,将检测阈值设定为10%,共鉴定出烟草线粒体基因组的4 212 个RNA 编辑位点,是传统的一代测序无法实现的。此外,研究结果表明RNA 编辑是烟草线粒体上的一种常见现象,线粒体上64.7%的蛋白编码基因存在RNA 编辑位点,而RNA 基因中只有29.6%的基因存在RNA 编辑位点,表明RNA 编辑位点的分布不均衡,这一现象与烟草叶绿体的研究结果类似[19]。

位于蛋白编码基因的RNA 编辑位点中,同义变异448 个,非同义变异826 个,非同义变异所占比例更大。研究发现,一些非同义变异的RNA 编辑会改变氨基酸性质,使亲水性氨基酸变为疏水性氨基酸,疏水性氨基酸的增多可以使蛋白质结构更加稳定[20]。本研究中发现非同义变异中疏水性增加的有589 个,亲水性增加的有159 个,疏水性增加的位点占比为77.1%,与前人的研究结果一致。其中,两种氨基酸转变占比最大,分别是脯氨酸(Pro)转变为亮氨酸(Leu)和丝氨酸(Ser)转变为亮氨酸(Leu)。本研究中发现8 个tRNA 基因也存在RNA 编辑位点,这可能会导致tRNA 二级结构发生变化,影响转运氨基酸的功能[20]。

在高等植物线粒体中,编码区的RNA 编辑常发生于密码子的前2 个碱基[6]。本研究中编码区上的RNA 编辑位点发生在密码子的第1 和第2 个碱基所占的比例为66.5%,这与前人的研究结果一致。此外,将编码区上的RNA 编辑位点分为同义位点与非同义位点分别统计,非同义位点中,375个是密码子第1 位发生编辑,451 个是第2 位发生编辑,RNA 编辑100%均发生在密码子的第1 和第2 个碱基上。同义位点中,427 个是密码子的第3位发生编辑,21 个是密码子的第1 位发生编辑,RNA 编辑95.3%发生在密码子的第3 位碱基上。由于非同义位点在编码区编辑位点中所占比例超过2/3,故整体来看RNA 编辑位点常发生于密码子第1、第2 位。

编码蛋白的基因中,ccmFN、mat-R、rps3 的RNA 编辑位点最多,分别为84、61、48 个。这3 个基因具有不同的功能,ccmFN 基因编码的是细胞色素C 成熟蛋白亚基,mat-R 基因编码类成熟酶,rps3 基因参与核糖体小亚基的装配。其中,ccmFN在其他植物,如杨柳科杨属植物里也是RNA 编辑位点最多的基因[21]。研究中发现,EMP7 蛋白参与ccmFN 基因部分位点的编辑,而这些位点的编辑对于细胞色素C 蛋白正常发挥功能和维持线粒体的氧化磷酸化作用都是必需的[22]。

通过比较烟草根、花、叶中的RNA 编辑位点,发现不同烟草器官的RNA 编辑位点差异很大。叶有2 923 个RNA 编辑位点,是拥有最多位点的器官;其次为根,有2 368 个位点;最少的为花,有2 155 个位点。其中,无义突变的RNA 编辑位点更为重要,这些位点会导致蛋白质翻译提前结束,得到截短的蛋白。根、花、叶中含有无义突变的RNA 编辑位点几乎全部为部分被编辑,仅影响部分表达的蛋白,这可能也是转录后调控的方式之一。本研究中还发现,部分基因存在多个无义突变的RNA 编辑位点,如mat-R 基因和ccmFN 基因中均存在4 个无义RNA 编辑位点,这表明利用无义突变的RNA 编辑可调控基因的表达,同时无义突变位点相互之间有协同作用。叶的特异无义突变为10 个,花的特异无义突变为11 个,而根除了7个无义突变还有导致终止密码子丢失的4 个RNA编辑位点。查询这些位点所在基因的功能,发现其参与了氧化呼吸链的电子传递、蛋白合成等生物过程。同时很多位点位于开放阅读框基因上,说明这些开放阅读框基因是可被转录的[14],有些开放阅读框基因可能也参与了线粒体某些功能的完成。

本研究中系统鉴定了烟草花、叶、根3 种器官的线粒体基因组RNA 编辑位点,比较不同器官RNA 编辑位点的差异,有助于深入了解RNA 编辑在烟草中不同器官的生物学功能,从而为烟草育种中利用RNA 编辑作为工具调控重要基因的表达奠定基础。

4 结论

通过分析烟草根、花、叶的基因组及转录组测序数据,鉴定了烟草线粒体中从胞嘧啶(C)到尿嘧啶(U)转换的RNA 编辑位点。3 种器官中共发现4 212 个RNA 编辑位点,其中叶的RNA 编辑位点最多。全部RNA 编辑位点中,仅有30.2%的位点位于蛋白编码基因,其中非同义的RNA 编辑位点所占比例(64.8%)最大。非同义的RNA 编辑增加了疏水性氨基酸的数量,其中疏水性增加的位点占77.1%。62 个RNA 编辑位点会导致终止密码子的新增或丢失,这些位点所在基因参与了氧化呼吸链的电子传递、蛋白合成等生物过程。

猜你喜欢
密码子线粒体位点
特发性肺纤维化中的线粒体质量控制
Pd改性多活性位点催化剂NH3-SCR脱硝反应机理研究
DNA脱碱基位点的检测方法及其生物学研究进展
紫九牛叶绿体基因组密码子偏好性分析
线粒体自噬在纤维化疾病中作用的研究进展
线粒体自噬在蛛网膜下腔出血中的研究进展
新型密码子、反密码子、氨基酸对应盘
运动介导AMPK调控线粒体质量控制的机制研究进展
基因型和表现型的快速判断法
一种改进的多聚腺苷酸化位点提取方法