虹鳟肝组织新转录本分析及基因结构优化

2019-04-28 03:39马芳刘哲康玉军权金强
中国实验动物学报 2019年2期
关键词:虹鳟文库碱基

马芳,刘哲,康玉军,权金强

(甘肃农业大学动物科学技术学院,兰州 730070)

转录组是指细胞在特定阶段产生的全部转录本,包括mRNA、rRNA、sRNA和tRNA[1]。转录组学已经被广泛用来研究生物体对环境的各种复杂反应,解释基因组的功能元素。随着RNA-seq变得越来越便宜,常常成为研究环境压力的方法。丰富的RNA-seq数据可以构建完整的转录组,提供丰富的差异基因表达信息,并可用于识别涉及热应激反应的生物通路。在鱼类中,通过利用RNA-seq识别不同鱼类温度适应机制的研究正在迅速增加。但是,现有数据库中对转录本的注释还不全面,通过RNA-seq技术,还能检测到新转录本。目前,越来越多的研究开始关注RNA-seq技术在新转录本预测和基因结构优化方面的应用[2-3]。

虹鳟(Oncorhynchusmykiss)作为鲑科鱼类的一员,正迅速的成为水产养殖中的重要鱼类。作为典型的冷水鱼,最适的生活温度是12 ~ 18℃。对于高温的耐受性低,当温度超过24℃时免疫功能严重下降,组织受损[4]。以前的研究利用微阵列技术验证了虹鳟对温度变化的反应[5],并对虹鳟不同种类的热应激反应进行了比较[6]。

本课题组前期应用RNA-seq技术对虹鳟热应激下肝组织中差异表达基因进行了鉴定[7],本研究中,在前期研究的基础上运用生物信息学方法鉴定新的转录本并对已注释基因的结构进行优化及,为深入理解虹鳟热应激的机制奠定基础,同时为虹鳟基因组的进一步完善提供数据基础。

1 材料与方法

1.1 实验动物及饲养

选择身体健壮,平均体重为(400 ± 10.5)g的全同胞虹鳟200尾运送至实验室,置于一个3000 L的水箱在18℃下训养7 d。试验前,随机挑选120尾分为六组,每组20尾,分别置于6个300 L的室内循环流水水箱中暂养一周。饲养期间严格按照虹鳟饲养标准饲喂,光照周期为12 h光照和12 h黑暗,严格按照虹鳟饲养标准饲喂。

1.2 热处理及采样

暂养结束后,选3组继续18℃饲养,对其余3组进行热处理升温,从18℃到24℃以恒定的速率每24 h升高1℃。然后随机从各组取1尾鱼采取肝组织,18℃作为对照组,24℃作为热处理组。采样时,用0.05 g/L的间氨基苯甲酸乙酯甲磺酸盐(MS-222)对实验用鱼进行麻醉,采集肝组织,迅速贮存到液氮中,然后-80℃保存备用。

1.3 RNA提取

利用TRIzol试剂盒 (Invitrogen, Carlsbad, CA, USA对肝组织的总RNA进行提取,用NanoPhotometer® spectrophotometer (IMPLEN, CA, USA)和1%琼脂糖凝胶电泳对总RNA的纯度进行检测。用Qubit 2.0荧光光度计(LifeTechnologies, CA, USA)和Bioanalyzer 2100 (Agilent Technologies, CA, USA)检测提取的总RNA的浓度和完整性。样品检测合格后进行文库构建。

1.4 文库构建和转录组测序

应用the NEBNext® UltraTMRNA Library Prep Kit构建6个测序文库。用带有Oligo(d T)的磁珠纯化mRNA,随后加入NEBNext First Strand Synthesis Reaction Buffer(5X)使mRNA打断成短片段,应用六聚体引物和M-MuLV Reverse Transcriptase (RNase H-)合成一链cDNA,随后用RNase H和DNA polymerase I合成二链cDNA。利用AMPure XP beads纯化双链cDNA选择150~200 bp的cDNA片段。最后通过PCR扩增得到cDNA文库。构建好的文库用Agilent Bioanalyzer 2100检测合格后,使用Illumina HiseqTM2500平台进行测序获得150 bp的双末端原始数据。

1.5 新转录本预测

原始数据(raw reads)去除带接头(adapter)的reads和含ploy-N和低质量的reads后获得clean data。同时计算clean data的Q20a、Q30和GC含量。后面的所有的分析都基于高质量的clean data。应用TopHat v2.0.12将clean data比对到参考基因组,随后利用Cufflinks v2.1.1软件对比对结果进行组装,用Cuffcompare和已知的基因注释文件进行比较,寻找潜在的新转录本。利用GOseq软件对新转录本进行GO功能注释。KOBAS(2.0)软件对KEGG注释通路进行分析。

1.6 新转录本热应激下基因表达分析

根据转录本的长度和新转录本的比对结果计算每个转录本的FPKM(expected number of fragments per kilobase of transcript sequence per millions base pairs sequenced每百万片段中来自某一基因每千碱基长度的数目)作为表达量的单位,归一化处理后的数据用log2作为新转录本表达的数据。采用DESeqR package (v1.18.0)对热处理组和对照组之间差异表达的新转录本进行分析,P< 0.05的转录本为差异表达。

1.7 已知基因结构优化

组装的转录本与虹鳟基因注释信息进行对比,如果在已注释基因边界外的区域有连续的匹配读段,则将基因的5′和3′端进行延伸,优化已注释基因的结构。

2 结果

2.1 测序结果数据处理与分析

测序数据已提交NCBI数据库(SRP092649)。6个文库(CL1、CL2、CL3和HL1、HL2、HL3)总共产生了287 277 772条原始数据(raw reads),去除带接头的reads,去除N的比例大于10%的reads和去除低质量的reads后获得277 680 702条clean reads。通过对碱基质量进行了评估和碱基组成的检测,可以保证下游分析的准确性。RNA-Seq测序的碱基质量值是碱基识别出错概率的整数映射,使用Phred碱基质量值公式计算。碱基质量值越高表明碱基识别准确度越高,例如碱基质量值10 (Q10)、20 (Q20)、30 (Q30)和40 (Q40)分别表示碱基识别出错的概率为10%、1%、0.1%和0.01%。6个文库中碱基质量值≥Q30的碱基百分比分别为90.17%、89.77%、89.62%、91.25%、91.47%和91.30%,说明碱基质量较高(表1)。6个样品的碱基组成情况如图1,各个碱基占的比例约为25%,G和C碱基及A和T碱基含量每个测序循环上分别相等,且整个测序过程稳定不变,呈水平线,不存在碱基分离现象。利用Top Hat2软件将clean reads与虹鳟参考基因组进行比对,由表1可知,6个样品中clean reads与虹鳟参考基因组进行比对效率在66.17% ~ 68.61%之间,其中有单位点(uniquely mapped)比对率在64.83% ~ 67.31%之间,多位点(multiple mapped)比对率在1.23% ~ 2.28%之间,说明测序数据的比对率正常。

表1 clean data与参考基因组序列比对结果Table 1 Comparison of clean data with the reference genome sequences

图1 原始数据碱基组成Figure 1 Base composition of raw data

2.2 新转录本的发掘

通过过滤掉少于50个氨基酸残基的编码肽链和只包含单个外显子的序列,共获得6555个新的转录本(表2)。其中表达量较低的(≤10)的基因为1991个,占30.4%;高表达的(>1000)的基因为133个,占2.03%(图2)。新转录本的长度大都在500 bp以上,约占62.1%,说明新鉴定的转录本主要为蛋白质编码基因(图3)。新转录本在染色体上的分布如图4所示,在chrUn染色体上分布最多,有5411条;在染色体chrUn26上最少,有11条。

表2 利用RNA-seq技术鉴定的虹鳟新转录本Table 2 Novel transcripts in the rainbow trout identified by RNA-Seq technology

注:部分数据未列出。

Note. Some data are not listed.

图2 虹鳟肝新转录本表达量统计Figure 2 Statistical data of the expression of new transcripts in the liver of rainbow trout

图3 虹鳟肝新转录本的长度分布Figure 3 Length distribution of the new transcripts in the liver of rainbow trout

图4 转录本在染色体上的分布Figure 4 Distribution of the transcripts on chromosomes

2.3 新转录本的注释

利用Blast2Go软件对筛选到的新转录本进行GO富集分析,3097个新转录本注释到细胞组成、生物学过程和分子功能。在分子功能中,绑定分子功能类别所占比例最多,其次是酶活性活性类别。在生物学过程中,代谢过程类别所占比例最多,其次是生物合成过程类别。在细胞组分中,胞外区类别所占比例最多(图5)。

图5 虹鳟肝新转录本GO注释结果Figure 5 GO annotation results for the new transcripts in the liver of rainbow trout

利用KOBAS(2.0)软件对KEGG注释通路进行分析,3617个新转录本注释到284条代谢通路。主要的10条代谢途径见图6,分别是代谢途径(metabolic pathways)、粘着斑(focal adhesion)、内吞作用(endocytosis)、PI3K-Akt信号通路(PI3K-Akt signaling pathway)、MAPK信号通路(MAPK signaling pathway)、胰岛素信号通路(insulin signaling pathway)、碳代谢(carbon metabolism)、Rap1信号通路(Rap1 signaling pathway)、AMPK信号通路(AMPK signaling pathway)、细菌侵入上皮细胞(bacterial invasion of epithelial cells)。

2.4 新转录本表达谱分析

总共有30个新转录本在热应激下差异表达,参与了虹鳟热应激。其中15个显著上调表达(Novel00236、Novel00736、Novel01309、Novel01495、Novel02292、Novel02550、Novel02698、Novel03125、Novel03334、Novel03377、Novel03766、Novel04249、Novel05645、Novel06326、Novel06367)(P< 0.05),15个显著下调(Novel00295、Novel00475、Novel00942、Novel01074、Novel01430、Novel03158、Novel03185、Novel03283、Novel03815、Novel04339、Novel05149、Novel05519、Novel05701、Novel06040、Novel06166)(P< 0.05)(图7)。

图6 虹鳟肝新转录本KEGG分析Figure 6 KEGG analysis for new transcripts in the liver of rainbow trout

2.5 已注释基因结构优化

利用RNA-seq测序结果对已注释基因的结构进一步优化。如果在已注释基因边界之外的区域有连续的匹配读段支持,则将基因的UTR区域向上游或向下游延伸,优化基因边界。基因结构优化结果显示,本研究中共有19 424个已注释基因5′或3′端在原有基础上发生了延伸(表3)。其中5′端为14 719个延伸,3′端为14 796个延伸(表4)。

图7 热应激后虹鳟肝新转录本的差异表达Figure 7 Differential expression of new transcripts in the liver of rainbow trout after heat stress

3 讨论

虹鳟作为典型的冷水性鱼,对高温的耐受能力差,随着全球气候的变暖,对虹鳟的养殖造成了越来越严重的影响,因此了解虹鳟热应激下的生存机制,提高虹鳟的抗逆性至关重要。目前,越来越多的研究深入的探索鱼类热应激的机制[8-10]。对于虹鳟,转录水平上进行的热应激研究相对较少,一些研究采用活体[11-13],或采用体外细胞培养的方法[14-15],初步研究了热应激下虹鳟个别已知mRNA的表达水平变化,没有系统研究热应激调控机理。目前发展的高通量转录组测序技术RNA-seq,在研究基因结构和功能方面具有突出的优势,通过RNA-seq可以全面快速地获得某一物种特定组织或器官在某一状态下的转录本信息。

表3 基因3′和5′端延伸情况Table 3 Extension of the 3′ and 5′ ends of genes

表4 部分3′或5′端延伸的基因Table 4 Partial 3′ or 5′ extension genes

随着转录组测序技术的快速发展,越来越多的新转录本被发现,但是,在现有的数据库中对新转录本的注释还不全面。猪基因组自基因图谱公布后,还有不少新的转录本被发现[16]。利用RNA-seq技术对绵阳正常组合骨延迟愈合组进行了测序,发现了12 431个新转录本[3]。

本研究应用构建虹鳟热应激下的6个转录本序列,将虹鳟热应激下肝RNA-seq结果中的原始数据,去除带接头的reads,去除N的比例大于10%的reads和去除低质量的reads后获得277 680 702条clean reads。然后对将clean data比对到参考基因组,随后对比对结果进行组装,并与已知的基因注释文件进行比较,寻找潜在的新转录本。共发现6555个新转录本,表达量较低的(reads ≤ 10)的基因为1991个,说明虹鳟肝中至少表达了4564个新转录本,并且大多数是高表达[7]。热应激下新转录本的表达谱分析揭示了这些新转录本也参与了虹鳟抗热应激过程。尽管关于虹鳟对热应激胁迫的分子机制已经有很多研究[14, 17-18],但是还没有对这些未知因子在热应激下的作用机制进行深入分析,因此,本研究首次系统的分析了新转录本在热应激下的调控规律和作用。我们发现在肝中总共有30个新转录本受到热应激的调控,其中15个表达显著上调,15个表达显著下调,这给了解虹鳟热应激的机制进一步奠定了基础。

RNA-seq还在进一步完善基因结构信息方面发挥着重要的作用,将clean data比对到参考基因组后,发现共有19 424个已知基因的5′或3′UTR区在原有基础上发生了不同的延伸。该结果表明,已知基因的5′或3′UTR区预测不完全,而这些延伸优化了已知基因的结构。

本实验通过对RNA-seq结果进行生物信息学分析,发现了6555个新转录本,30个新转录本参与了虹鳟抗热应激过程。对已注释基因的结构进行了优化。这些结果使得虹鳟的全基因组更加全面,也为进一步了解虹鳟热应激的机制提供更有力的理论基础。

猜你喜欢
虹鳟文库碱基
用生命保卫中央文库的陈为人
那条逆流而上的死鱼
专家文库
应用思维进阶构建模型 例谈培养学生创造性思维
优秀传统文化启蒙文库
中国科学家创建出新型糖基化酶碱基编辑器
关于推荐《当代诗坛百家文库》入选诗家的启事
生命“字母表”迎来新成员
生命“字母表”迎来4名新成员
虹鳟和硬头鳟早期幼鱼渗透生理及能量平衡的比较研究❋