酵母1号和2号染色体DNA的组成排列对比分析

2021-11-19 07:36刘建丽周德良
贵州大学学报(自然科学版) 2021年6期
关键词:真核单核双核

刘建丽,周德良,靳 文

(1.中国地质大学(北京) 水资源与环境学院,北京 100083;2.北京中电易达科技有限公司,北京 100190;3.内蒙古自治区人民医院 临床医学研究中心 内蒙古自治区代谢紊乱疾病基因调控重点实验室,内蒙古 呼和浩特 010010)

酵母是最简单的真核单细胞生物[1-5],其广泛分布于整个自然界,在有氧和无氧条件下均能存活。酵母是人类文明史中应用最早的微生物,也是基因克隆试验中常用的真核生物受体细胞[6-7]。近些年,随着获得更多的高等真核生物遗传信息,已经发现有更多的酵母基因与高等真核生物基因具有同源性,这也使得酵母基因组在生物信息学领域具有更加重要的作用[8-12]。相关研究已发现,人类和酵母同样存在一定的同源性,有三分之一的酵母基因可以在人类基因组中找到对应的版本,而且酵母和人类的对应蛋白,在氨基酸序列上平均重叠32%[13-17]。所以,对酵母基因组的生物信息学研究对高等真核生物的研究具有重要的意义和价值[18-19]。

本文利用生物信息学方法,通过编写脚本程序,对酵母1号和2号染色体DNA的核苷组成与排列分布进行分析研究,以获得酵母染色体DNA的核苷组成与排列特征,并在核苷组成与排列特征的基础上对酵母1号和2号染色体DNA之间的相似性和差异性进行统计分析,从而为酵母与高等真核生物基因的同源性分析提供更多的数据与技术支持。

1 数据与方法

1.1 序列提取

从UCSC(university of california santa cruz)基因组浏览器下载酵母1号和2号染色体DNA,它们的长度见表1。

表1 1号和2号染色体DNA的长度Tab.1 Length of yeast DNA in chromosome 1 and 2

1.2 组成百分比

对给定的 DNA 序列,单核苷组成百分比(mononucleoside composition persentage,MCP)根据公式(1)进行计算:

MCP=N/L

(1)

其中,N指某个单核苷(单核苷包括A、T、C和G共4个)在染色体DNA中出现的次数;L指染色体DNA的长度。

对给定的 DNA 序列,双核苷组成百分比(dinucleoside composition persentage,DCP)根据公式(2)进行计算:

DCP=N/(L-1)

(2)

其中,N指某个双核苷(双核苷包括AA、AT、TA、TT、AC、AG、CA、GA、TC、TG、CT、GT、CC、CG、GC和GG,共16个)在染色体DNA中出现的次数,其以2 bp为窗口、1 bp为步长进行统计;L指染色体DNA的长度。

1.3 步距频次百分比

对给定的 DNA 序列,双核苷步距频次百分比(dinucleoside spacing frequency persentage,DSFP)根据公式(3)进行计算:

(3)

其中,Ni指双核苷X和双核苷Y交替出现但出现间距为i的次数,其中X和Y可以是相同或不相同的单个双核苷,也可以是相同或不相同的多个双核苷的集合;i指X和Y交替出现的出现间距,是大于等于0的任意可能整数值(包含0),比如X和Y都是相同的单个双核苷AA,以AAACTGAACC序列为例,AA交替出现的出现间距i分别为0和4;若X和Y都是相同的单个双核苷AC,同样以AAACTGAACC序列为例,AC交替出现的出现间距i为4;若X和Y都是AA、AT、TA、TT这4类双核苷的集合,以AAACTGATACC序列为例,AA、AT、TA、TT交替出现的出现间距i分别为0、4和0。

2 结果与分析

2.1 单、双核苷的组成分析

利用公式(1)计算酵母1号和2号染色体DNA的单核苷组成百分比(MCP),得到结果见表2。从表2发现,1号和2号染色体DNA的单核苷组成差异很小,其中单核苷A和T都是在30%左右,C和G都是在19%左右;单核苷G的组成百分比在2个染色体DNA之间的差异最大,但也只有0.89%。

表2 单核苷组成百分比Tab.2 Mononucleoside composition percentage

利用公式(2)计算酵母1号和2号染色体DNA的双核苷组成百分比(DCP),得到结果见表3。从表3发现,1号和2号染色体DNA的双核苷组成百分比差异很小,几乎相同,其中双核苷AA、AT、TA、TT的组成百分比均占据最高的前4位,而CC、CG、GC、GG的组成百分比均占据最低的后4位;双核苷TT的组成百分比在2个染色体DNA之间的差异最大,但也只有0.42%。

表3 双核苷组成百分比Tab.3 Dinucleoside composition percentage

从表2与表3的数据分析发现,对于酵母1号和2号染色体DNA,它们的单核苷和双核苷组成百分比基本相同,由此可以认为单核苷和双核苷组成在酵母1号和2号染色体DNA上并没有较明显的组成偏好性,它们在酵母两条染色体DNA上的组成具有较高程度的趋同性。目前已经发现有更多的酵母基因与高等真核生物基因具有同源性,我们推测,单核苷和双核苷组成应该不仅在1号和2号染色体DNA上没有较明显的组成偏好性,在全部16条染色体DNA上应该同样没有较明显的组成偏好性,这样的结果或许对高等真核生物的研究分析具有一定的意义和价值,这个工作我们将在后续工作中持续展开。

2.2 双核苷的步距频次分析

利用公式(3)分别计算酵母1号和2号染色体DNA上双核苷X和Y交替出现的步距频次百分比(DSFP),这里双核苷X和Y均为AA、AT、TA、TT这4类双核苷的集合。同理,再分别计算:1)X和Y均为CC、CG、GC、GG这4类双核苷的集合;2)X和Y均为AC、AG、CA、GA这4类双核苷的集合;3)X和Y均为TC、TG、CT、GT这4类双核苷的集合;这3种条件下的X和Y交替出现的步距频次百分比(表4)。同时为了对步距频次实现显性分析,我们忽略了出现次数很少的出现间距i,只在表4中列出出现间距i在[0,15]间的步距频次百分比。

表4 双核苷步距频次百分比Tab.4 Dinucleoside spacing frequency percentage

表4表明,AA、AT、TA、TT 在1号和2号染色体DNA上交替出现的步距频次百分比差异很小、几乎相同,它们在酵母1号和2号染色体DNA上的排列存在一定的相似性。同理,CC、CG、GC、GG,AC、AG、CA、GA,TC、TG、CT、GT在1号和2号染色体DNA上交替出现的步距频次百分比也几乎相同,它们在1号和2号染色体DNA上的排列同样存在一定的相似性。这样的结果表明,酵母1号和2号染色体DNA在一定程度上可能具有较高相似度的双核苷排列分布。

为了进一步验证上述观点,我们继续利用公式(3)分别计算酵母1号和2号染色体DNA上双核苷X和Y交替出现的步距频次百分比,这次双核苷X为AA、AT、TA、TT这4类双核苷的集合,Y为CC、CG、GC、GG这4类双核甘的集合。同时为了对步距频次实现显性分析,我们忽略了出现次数很少的出现间距i,只在表5中列出出现间距i在[0,15]间的步距频次百分比。

表5 双核苷步距频次百分比Tab.5 Dinucleoside spacing frequency percentage

从表5发现,在酵母1号和2号染色体DNA上AA、AT、TA、TT和CC、CG、GC、GG交替出现的步距频次百分比同样差异很小、几乎相同,它们在1号和2号染色体DNA上的排列存在一定的相似性。这样的结果验证了我们上述提出的“酵母1号和2号染色体DNA在一定程度上可能具有较高相似度的双核甘排列分布”这一观点。

上述利用公式(3)分别计算酵母1号和2号染色体DNA上双核苷X和Y交替出现的步距频次百分比,使用的X和Y都是多个双核苷的集合。接下来,我们将X和Y均取为单个双核苷AA再进行计算验证。同理,再分别计算:1)X和Y均取为TT;2)X和Y均取为CC;3)X和Y均取为GG。这3种条件下X和Y交替出现的步距频次百分比,最终得到的结果见表6。同时为了对步距频次实现显性分析,我们忽略了出现次数很少的出现间距i,表6中只列出出现间距i在[0,15]间的步距频次百分比。

表6 双核苷步距频次百分比Tab.6 Dinucleoside spacing frequency percentage

从表6发现,AA在酵母1号和2号染色体DNA上交替出现的步距频次百分比差异很小、几乎相同,它们在1号和2号染色体DNA上的排列存在一定的相似性。同理,TT、CC、GG在1号和2号染色体DNA上交替出现的步距频次百分比也几乎相同,它们在1号和2号染色体DNA上的排列同样存在一定的相似性。上述分析结果又更进一步表明,酵母1号和2号染色体DNA在一定程度上可能具有较高相似度的双核苷排列分布。

在上述分析中,我们利用公式(3)分别计算了3种不同类型双核苷在酵母1号和2号染色体DNA上的步距频次百分比,结果分析均一致表明“酵母1号和2号染色体DNA在一定程度上可能具有较高相似度的双核甘排列分布”。目前已经发现有更多的酵母基因与高等真核生物基因具有同源性,如果不仅是酵母1号和2号染色体DNA可能具有较高相似度的双核苷排列分布,而是酵母全部16条染色体DNA都可能具有较高相似度的双核苷排列分布,那么这样的结果或许对高等真核生物的研究分析具有一定的意义和价值,这个工作我们将在后续工作中持续展开。

3 结论

酵母是最简单的真核单细胞生物,包含16条染色体。本文利用生物信息学方法,分别计算分析了单核苷和双核苷在酵母1号和2号染色体DNA上的组成百分比,发现单核苷和双核苷组成百分比在这两条染色体DNA上基本相同,这说明单核苷和双核苷组成在酵母1号和2号染色体DNA上没有明显的组成偏好性,它们的组成在这两条染色体DNA上具有较高程度的趋同性。另外我们分别计算分析了3种不同类型的双核苷在酵母1号和2号染色体DNA上的步距频次百分比,发现无论哪一种类型的双核苷,它们在酵母1号和2号染色体DNA上交替出现的步距频次百分比都差异很小、几乎相同,它们在这两条染色体DNA上的排列分布均存在一定的相似性,这样的结果表明酵母1号和2号染色体DNA在一定程度上可能具有较高相似度的双核苷排列分布。

目前已经发现有更多的酵母基因与高等真核生物基因具有同源性,对酵母基因组的生物信息学研究对高等真核生物的研究具有重要的意义和价值。在后续的工作中,我们将对酵母全部16条染色体DNA的单核苷和双核苷组成百分比进行统计分析,同时也会对酵母全部16条染色体DNA的双核苷步距频次百分比进行计算分析,这两者的分析结果或许对高等真核生物的研究分析具有一定的意义和价值。

猜你喜欢
真核单核双核
新疆野生阿魏菇原生质体的再生与单核菌株交配型测定
边角双核互相转,环环相扣不变心——解三角形经典题突破
全球金融“F20”在此召开!横沥进入“双核”时代
专业设计8核U哪家强?这款锐龙很无敌!
科学家开发出人工基因组高效简化策略
15W笔记本处理器性能排行
朗格汉斯组织细胞增生症的诊治进展
小鼠转录因子STATl真核表达质粒的构建及生物学功能分析
人工再造真核生命问世
萌物