猪蛋白编码基因3'UTR 中IRPRE1 元件 的鉴定及其基因特征分析

2020-07-11 02:33赵为民曹静邢菲王丽任守文付言峰李碧侠方晓敏
关键词:元件基因组编码

赵为民,曹静,邢菲,王丽,任守文,付言峰,李碧侠,方晓敏*

(1.江苏省农业科学院畜牧研究所,江苏 南京 210014;2.江苏省农业种质资源保护与利用平台,江苏 南京 210014;3.江苏省农业科学院动物品种改良和繁育重点实验室,江苏 南京 210014;4.江苏农科传媒有限公司,江苏 南京 210014;5.南京农业大学动物科技学院,江苏 南京 210095)

蛋白编码基因的 3'端非翻译区(untranslated region,UTR)是指从终止密码子到转录终止位点的这段区域。该区域虽然不编码蛋白质,但却含有丰富的调控元件,以调控本身mRNA 的表达水平,从而丰富基因调控的多样性与复杂性。如蛋白编码基因3'UTR 含有microRNA 结合的种子序列,使microRNA 通过调节基因mRNA 的稳定性来调控各种生理活动[1-3]。

Alu 是短散在核重复序列(SINEs)中最丰富的1 种重复元件,约占人基因组的10%,广泛存在于灵长类生物基因的内含子、5'和3'端非翻译区(UTR)[4-5]。研究表明,Alu 元件在调控基因的选择性剪接[5]、基因的转录与翻译[6-7]、RNA 的A-to-I 编辑[5,8-10]中具有重要作用。此外,当蛋白编码基因的3'UTR 存在反向重复Alu(IRAlu)时,可导致该基因的mRNA 滞留于细胞核,而不能运出到细胞质进行翻译,从而实现对该基因蛋白水平的调控,进而影响细胞的各种生理活动[11-13]。

Alu 重复元件虽然特异存在于灵长类动物[14],然而在小鼠和猪中已发现与Alu 元件相对应的B1、B2、B4 元件和PRE1 元件。有研究[15-16]表明,这些相对应元件的结构和功能非常类似于灵长类动物的Alu。这说明存在于猪蛋白编码基因3'UTR 中的IRPRE1 元件可能与IRAlu 具有类似调控基因的蛋白表达水平的功能。鉴于此,本研究中,对猪全基因组范围内蛋白编码基因3'UTR 中的IRPRE1 重复元件进行鉴定,并对其对应基因的特征进行分析,旨在为研究这些含有IRPRE1 元件的蛋白编码基因的功能提供依据。

1 材料与方法

1.1 材料

DH5a 感受态菌株购于北京全式金生物技术有限公司。苏紫猪组织样品来源于江苏省农业科学院六合动物实验基地。采集3 头健康成年母猪的心、肝、脾、肺、肾、小肠、背肌组织,投入液氮迅速冷冻,于-80 ℃保存,备用。

1.2 主要试剂

RNA 提取试剂盒(Takara MiniBEST Universal RNA Extraction Kit)、cDNA 反转录试剂盒(PrimeScript™ RT Master Mix)、DNA Marker 和pMD19-T 购于Takara;Golden Star T6 Super PCR Mix(1.1×)购于北京擎科新业生物技术有限公司;DNA 纯化回收试剂盒(DNA Clean & Concentrator)购于Zymo Research。

1.3 猪全基因组范围内蛋白编码基因3'UTR 中IRPRE1 元件的分析

从Ensemble 网站的BioMart 中下载猪全基因组(Sscrofa11.1,Ensemble92)范围内的蛋白编码基因的3'UTR 序列,整理成Fasta 格式。由于PRE1 元件属于SINE/tRNA,使用RepeatMasker 在线网站对猪蛋白编码基因3'UTR 序列先进行重复序列分析,筛选条件中search engine 为cross_match,DNA source为pig,挑选含有SINE/tRNA 元件的蛋白编码基因;进一步选取SINE/tRNA 中含有Pre0_SS 和PRE1x (包括PRE1a、PRE1b、PRE1c、PRE1d、PRE1d2、PRE1e、PRE1f、PRE1f2、PRE1g、PRE1h、PRE1i、PRE1j、PRE1k)元件的蛋白编码基因;再选择Pre0_SS 和PRE1x 长度≥100 bp,且其中至少有1 对IR 的Pre0_SS 和PRE1x 元件为最终候选蛋白编码基因。

1.4 GO 与KEGG 分析

采用DAVID(Database for Annotation, Visualization and Integrated Discovery)对候选蛋白编码基因进行GO(Gene Ontology)和KEGG pathway (Kyoto Ency- clopedia of Genes and Genomes)分析,选择人的对应基因作为背景,研究这些蛋白编码基因参与的生物学功能与途径。筛选条件选择Count 为2,EASE 为0.01,fold enrichment 不小于1.5。

1.5 候选蛋白编码基因IRPRE1 元件的鉴定与组织表达

参照Takara MiniBEST Universal RNA Extraction Kit 说明书提取猪组织样品的总RNA,并进行DNaseI 处理。参照PrimeScript™ II 1st Strand cDNA Synthesis Kit说明书进行反转录,对每个组织的1 μg总RNA 进行反转录,反转录完后用灭菌水稀释5倍,于-20 ℃保存。按照Golden Star T6 Super PCR Mix(1.1×)说明书进行PCR,HPRT1基因为内参基因,所有引物列于表1。引物合成与测序验证均由南京擎科生物科技有限公司完成。对3 个蛋白编码基因TRMO、RCSD1和DBT的3'UTR 中的IRPRE1 元件进行组织表达谱分析。由于选取的IRPRE1 元件位于3'UTR 且都是位于单个外显子上,为了避免RNA 样品中的DNA 污染,利用基因组上的引物(Genome)进行PCR 检测,以检测RNA 样品中是否含有DNA。

表1 引物序列信息 Table 1 Primer sequence information

2 结果与分析

2.1 猪全基因组范围内蛋白编码基因3'UTR 序列的重复元件

对Ensemble 网站中猪的全基因组范围内蛋白编码基因分析发现,一共有22 342 个蛋白编码基因,对应45 788 个转录本。对45 788 个转录本的3'UTR 序列进行重复序列分析发现,其含有重复序列中的2 大类型,即分散重复序列与串联重复序列。分散重复序列中的DNA 转座子(DNA transposon)、长末端重复序列(LTR)、长散在重复序列(LINE)和短散在重复序列(SINE)分别占总数的7.31%、5.36%、14.87%和27.58%;串联重复序列中的简单重复序列 (simple_repeat)和低复杂度序列(low_complexity)分别占总数的31.08%和4.09%;其他种类重复序列占总数的9.71%。进一步发现SINE 与简单重复序列种类的重复序列所占比例较高,其次为LINE,其余的都低于10%。

2.2 猪全基因组范围内蛋白编码基因3'UTR 中SINE/tRNA 的种类

对猪的全基因组范围内蛋白编码基因3'UTR中仅含有SINE/tRNA 的序列分析发现,其亚种类繁多,每个种类都占有一定的比例,而其中Pre0_SS和PRE1x 所占的比例分别为41.83%和37.51%(表2),这2 类重复元件所占比例较高。

表2 猪全基因组范围内蛋白编码基因3'UTR 中SINE/tRNA 的种类占比 Table 2 Analysis of SINE/tRNA type within 3'UTR sequences of genome-wide of protein-coding genes in porcine genome

2.3 猪全基因组范围内蛋白编码基因3'UTR 含有IRPRE1 元件的鉴定结果

先去除猪全基因组范围内的22 342 个蛋白编码基因3'UTR 中不含有SINE/tRNA 重复元件的基因,留下5 017 个蛋白编码基因;再去除SINE/tRNA重复元件中不含Pre0_SS 与PRE1x 元件的基因,留下4 486 个蛋白编码基因;然后去除Pre0_SS 与PRE1x 元件全部为同一方向、长度小于100 bp 的Pre0_SS 和PRE1x 的基因,最终得到1 094 个候选蛋白编码基因,对应1 636 个转录本,进一步分析发现,这1 636 个转录本中PRE1 家族元件的长度为10~323 bp。如表3 所示,1 094 个蛋白编码基因在猪不同染色体上的分布不同,其中Y 染色体上的最少,只有3 个。1~4 号和6 号染色体上的较多,其中6 号染色体的最多,达117 个。

表3 候选蛋白编码基因在染色体上的分布 Table 3 The number distribution of candidate protein–coding genes on chromosomes

2.4 候选蛋白编码基因的GO 分析结果

候选蛋白编码基因一共参与38 个生物学过程,22 个细胞组分和15 个分子功能(P<0.05)。以P值显著性程度来衡量,生物过程、细胞组分和分子功能中排前十的注释列于图1。

图1 候选蛋白编码基因的GO 注释 Fig.1 GO analysis of candidate protein–coding genes

2.5 候选蛋白编码基因的KEGG pathway 分析结果

如表4 所示,以P值显著性程度来衡量,候选蛋白编码基因一共参与9 个生物学通路(P<0.05)。

表4 KEGG 通路中基因相关信息 Table 4 Gene information involved in KEGG pathway

2.6 候选蛋白编码基因IRPRE1 元件的鉴定与组织表达结果

图2 为3 个蛋白编码基因TRMO、RCSD1和DBT的3'UTR 中IRPRE1 元件方向示意图。从图3可知,阴性对照与DNaseI 消化后的各个组织RNA均检测不到Genome扩增产物,而作为阳性对照的基因组DNA 中能检测到Genome扩增产物,说明提取的组织RNA 中消除了DNA 的污染。从图4 可知,TRMO、RCSD1和DBT中IRPRE1 元件在各个组织中都有不同程度的表达;TRMO基因的IRPRE1元件在心、肝、脾、肺、肾和肌肉中的表达较高,小肠中表达较弱;RCSD1基因的IRPRE1 元件在肌肉中表达较高,其他组织表达较弱,小肠中几乎检测不到;DBT基因的IRPRE1 元件在肌肉中表达较高,其他组织表达较弱,肺中几乎检测不到。

图2 TRMO 和RCSD1 及DBT 基因的3'UTR 中IRPRE1 元件 Fig.2 A diagram of IRPRE1 elements of 3'UTR of TRMO,RCSD1 and DBT gene

图3 RNA 样品的DNA 污染检测结果 Fig.3 DNA contamination detection for the RNA sample

图4 候选蛋白编码基因IRPRE1 元件的组织表达谱 Fig.4 Tissue expression profile of IRPRE1 element of candidate protein coding genes

3 结论与讨论

Ensemble 数据库对每个蛋白编码基因有完善的注释信息,包括转录起始和终止位点、5'UTR 和3'UTR 的序列信息、cDNA 序列、CDS 序列等等,而且每隔一段时间就会发布一个新版本,非常有利于查询,很多研究对基因的注释信息都采用Ensemble[17-18]。NCBI 数据库对蛋白编码基因的结构注释信息,尤其是UTR 序列信息没有Ensemble数据库完善,且NCBI 数据库与Ensemble 数据库对基因的转录本数量及UTR 的序列注释差异也较大,目前对这种差异性还不能有效地验证哪一个数据库注释的正确。在对Ensemble 数据库中的蛋白编码基因3'UTR 分析的同时,也查阅了相应NCBI 数据库中的信息,发现存在很多差异,如在选取的3个基因TRMO、RCSD1、DBT中,RCSD1和DBT基因的3'UTR 序列在Ensemble 和NCBI 数据库中一致,但TRMO 基因的3'UTR 序列的IRPRE1 元件序列在NCBI 的注释中没有,在Ensemble 的注释中有,且试验也验证了TRMO基因3'UTR 序列的IRPRE1 元件的表达;因此,在本研究中采用了Ensemble 数据库。

重复序列元件广泛存在于哺乳动物基因组中,人的基因组中有将近一半的序列为重复元件[4]。LINE 和SINE 作为重复元件的主要类型,在基因的多样性中发挥重要作用[14,19-20]。在猪的基因组序列中,LINE 和SINE 分别占17.5%和11.4%[16]。本研究中,LINE 和SINE 分别占3'UTR 总重复元件的14.87%和27.58%,且SINE 的占比仅仅稍低于简单重复序列(31.08%),表明SINE 相对于LINE 在3'UTR 序列可能发挥更加重要的调控作用。研究[16]表明,Pre0_SS 是非常相似于PRE1 的元件,故本研究中把Pre0_SS 元件也归纳到PRE1 元件家族中。本研究中,SINE/tRNA 中,Pre0_SS 和PRE1x 所占的比例分别为41.83%和37.51%,是SNINE/tRNA中最丰富的元件,这与对应人物种中Alu 元件占SINE 比例最高是一致的[4]。

Alu 元件的长度约为300 bp[21],而PRE1 家族元件的长度约为250 bp[16]。本文研究中,PRE1 家族元件的长度为10~323 bp,说明有些蛋白编码基因3'UTR 中的PRE1 元件的长度并不完整,有些只是PRE1 的部分序列。有研究[22-23]表明,IRAlu 中的2 个反向的Alu 元件长度大于100 bp 时才能形成有效的双链RNA,从而发挥生物学功能,故本研究中对IRPRE1 元件的分析中也选取了蛋白编码基因3'UTR 中长度大于100 bp 的PRE1。本研究中,IRPRE1 的2 个相反的PRE1 元件之间的间隔序列长度从几十到上千个碱基,目前尚不清楚这种长度大小对IRPRE1 发挥的功能有何具体影响,且这种间隔长度大小变化也见于IRAlu 中[12],需要后续进一步研究。

KEGG pathway 分析发现,有1 094 个蛋白编码基因参与多种生物学通路,其中包括TNF 信号通路与RIG-I 样受体信号等。TNF 与RIG-I 信号通路是响应细胞内外信号的通路,可影响多种细胞的生理活动[24-25],其相关基因的表达水平在上述通路中发挥重要功能,表明这些候选基因的IRPRE1 元件可能在调控其基因的表达水平中发挥着作用,进而影响基因本身在这些通路中的调控作用。

猜你喜欢
元件基因组编码
“植物界大熊猫”完整基因组图谱首次发布
承压类特种设备受压元件壁厚测定问题的探讨
生活中的编码
牛参考基因组中发现被忽视基因
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
Genome and healthcare
如何读懂色环电阻