基于Illumina HiSeq平台的翘嘴红转录组测序分析

2023-12-11 12:54徐慧敏巨丹丹肖明松
安徽科技学院学报 2023年6期
关键词:核苷酸位点测序

徐慧敏, 巨丹丹, 龚 兵, 肖明松,2*

(1.安徽科技学院 动物科学学院,安徽 凤阳 233100;2.淮南师范学院 生物工程学院,安徽 淮南 232038)

转录组测序(又称RNA-Seq)是近年发展起来的新技术,能够全面快速获得细胞或组织在某种状态下所有转录本的序列信息和基因表达信息[1]。通过分析转录组数据,可以发现未知的基因和稀有的基因,从而准确研究基因表达差异、基因组成变异、分子标记筛选等相关生物学问题[2-5]。目前,转录组测序技术凭借其数量大、覆盖率高、成本低、操作方便等特点,已在鱼类研究中广泛应用。邵嘉棋等[6]对大口黑鲈(Micropterussalmoides)进行RNA-seq技术测序,获得64个与驯食性状相关的候选基因和1个SNP标记,为大口黑鲈食性驯化遗传改良提供了相关信息。何丽斌等[7]对3种不同肤色的毕加索小丑鱼(Picassoclownfish)进行转录组测序,发现与黑色素生成相关的基因在白色皮肤组织中表现出下调的现象。Liao等[8]对鲫鱼(Carassiusauratus)进行转录组测序,基因差异表达分析表明,大脑中的表达基因较多,肌肉中表达基因上调,肝脏中表达基因下调。同时挖掘出11 295个微卫星和5 784个SNP标记。徐慧敏等[9]对长吻鮠(Leiocassislongirostris)的肌肉组织进行转录组测序,与NR数据库比对分析,发现眼斑雀鳝(Lepisosteusoculatus)、斑马鱼(Daniorerio)、斑点叉尾鮰(Ictaluruspunctatus)、尼罗罗非鱼(Oreochromisniloticus)、墨西哥丽脂鲤(Astyanaxmexicanus)与长吻鮠序列相似度极高。

单位减排量价格往往是项目业主最关注的问题,但在目前二级市场价格不景气的情况下,我国的项目业主几乎没有议价的能力。有的认为只要项目减排量能卖出去,执行国家发改委最低价就可以,有的则一味追求高价而却忽视其他。在选择买家时,建议借助环境交易所平台或咨询公司的推荐,寻找多个买家报价。价格的确定不仅要看国际市场形势,还要综合考虑对方资信情况、不能交付的风险、支付风险、预付资金情况及违约风险、语言条件、管辖风险、法律适用风险等因素,因此未必选最高报价的买家,要选最合适的买家及报价。

翘嘴红鲌(Erythroculterilishaeformis)隶属于鲤形目、鲤科[10],是一种个体大、繁殖速度快,并且生活在中上层水体中的肉食性鱼类,为中国诸多平原水系中的经济性鱼类。翘嘴红鲌抗病性极强,广泛分布于长江中下游地区各大水域,其肉洁白鲜嫩,富含蛋白质和氨基酸,营养价值较高[11]。然而,作为珍贵的经济鱼类翘嘴红鲌因遭受过度捕捞、环境污染、工业建设等因素的影响,种质资源量持续下降。近几年对翘嘴红鲌的研究大多集中在养殖技术[12-13]、营养需求[14-16]、疾病防治[17-18]等方面,而对翘嘴红鲌种质资源开发与利用的报道较少。目前研究人员已对黄颡鱼[19]、军曹鱼[20]、金钱鱼[21]、斑马鱼[22]、绿鳍马面鲀[23]、圆口铜鱼[24]、罗非鱼[25]、缺须盆唇鱼[26]、翘嘴鳜[27]等水产生物进行转录组测序。而有关翘嘴红鲌转录组分析的研究少之又少。因此,本研究采用Illumina HiSeq测序技术对翘嘴红鲌进行转录组测序,通过生物学方法进行信号通路分析和功能注释,旨在更好地开展翘嘴红鲌繁殖以及增值工作,从分子方面评估种群遗传结构以及多样性,丰富翘嘴红鲌的遗传资源。

1 材料与方法

1.1 试验动物

试验用翘嘴红鲌购于凤阳县连丰渔业发展有限公司。随机挑选9尾体表无伤痕、体长体重相近、活力较强的翘嘴红鲌,用MS-222进行麻醉,取出肌肉、肝脏等组织,放入冻存管,做好标记,置于液氮中保存。

基于OpenCV的边缘检测有5个步骤,即:使用高斯滤波器对图像进行去噪;计算梯度;在边缘上使用非最大抑制(NMS);在检测到的边缘上使用双阈值以去除假阳性;最后分析所有的边缘及其之间的连接,以保证真正的边缘并消除不明显的边缘检测结果,如图2所示。

1.2 RNA提取及文库构建

以KEGG代谢数据库为依据(图4),对所得的unigene的注释结果进行分类,发现翘嘴红鲌的代谢途径分为新陈代谢、基因信息处理、环境信息处理、人体疾病、有机体系统、细胞过程等6大类。其中unigene涉及数量最多的是环境信息处理分支中的信号转导(Signal Transduction)3 153条、人类疾病分支中的癌症:特殊类型(Cancer: Specific Types)2 796条和癌症:概述(Cancer: Overview)2 503条、耐药性:抗肿瘤药物(Drug Resistance: Antineoplastic)1 747条、有机体系统分支中的免疫系统(Immune System)2 208条和老龄化(Aging)1 750条。

通过与GO数据库的比对注释(图5),将其分为生物过程、细胞成分和分子功能等3大类,并根据序列同源性将其分为53个功能群。研究发现,在分子功能中,结合、催化活性和转运体活性的注释序列数量都较多;细胞组分中,关于细胞组织、膜部分和细胞器的注释序列比较多;在生物过程中,细胞过程、代谢过程和生物调控的注释序列最多。

1.3 数据质控、拼接及注释

利用MISA程序(http://pgrc.ipk-gatersleben.de/misa)对获得的unigene序列进行SSR位点搜索。SSR位点搜索条件被设置为单核苷酸的重叠频次超过或等同于12次;二核苷酸重叠频次超过或等同于6次;三核苷酸、四核苷酸的重叠频次超过或等同于5次;五核苷酸、六核苷酸的重叠频次超过或等同于4次。

1.4 SSR(Simple Sequence Repeats)位点筛选

通过高通量测序获得的原始数据,首先做质量评估,然后筛选掉其中包含有接头但品质较低的reads,以得到clean reads;最后利用Trinity软件实现clean read拼接。对拼接得到的unigene序列进行ORF预测,对预测出的ORF序列进行注释,分别与GO、Swiss-Port、NR、KEGG Pathway、Pfam和COG等6个数据库进行注释分析。

2 结果

2.1 转录组数据质控及组装分析

文库检查合格后,根据有效浓度和目标数据量要求进行池化文库,采用Illumina HiSeq测序,共获得973 196 056份原始数据。去除质量差和重复的原始读数,共获得967 109 550个干净读数。通过de novo剪切拼接获得80 945 107条unigene序列和137 435 647条transcript序列(表1)。unigene序列大部分集中在200~500 bp,有46 332条(图1),占54.54%,其中最大和最小长度分别为23 439、201 bp;平均长度、N50长度和N90长度分别为934、1 778、3 283 bp。

图1 Unigene长度分布Fig.1 Unigene length distribution

表1 翘嘴红鲌测序数据统计

2.2 序列功能注释与分布

将所得的unigene序列与6大数据库(KEGG、COG、NR、Swiss-Prot、Pfam、GO)进行比对,共得出163 265条unigene序列得到注释(图2),有38 324条序列注释到NR数据库(23.47%),23 493条序列注释到Swiss-Prot数据库(14.38%),22 944条序列注释到Pfam数据库(14.05%),27 730条序列注释到COG数据库(16.98%),28 884条序列注释到GO数据库(17.70%),21 890条序列注释到KEGG数据库(13.40%)。

图2 unigene各大数据库分布Fig.2 Major database distribution of unigene

对所得的419 549条unigene序列进行检索(图6),共发现33 405个位点分布在21 396条unigene中,其发生频率达50.99%,出现频率达79.62%。同时,超过1个SSR位点的unigene有5 722条,占含有SSR位点unigene数的26.74%。从鉴定结果看,SSR类型丰富,重复基元数目有176种,其中SSR类型数量最多的是五核苷酸(66种),其次为四核苷酸(50种)、六核苷酸(26种)。翘嘴红鲌转录组SSR位点分布较广,其核苷酸组成之间存在一定的差异。在这6种重复类型中,最常见的是单核苷酸重复序列,占61.00%(20 377);其次是二核苷酸重复序列,占26.42%(8 827);三核苷酸重复序列占9.07%(3 029);四核苷酸重复序列占2.99%(999);重复序列最少的是五核苷酸重复序列占0.47%(158),六核苷酸重复序列占0.04%(15)。

图3 NR注释结果分布Fig.3 Distribution of NR annotation results

采用TRIzol法提取翘嘴红鲌肌肉及肝脏组织总RNA,并通过1.5%琼脂糖凝胶电泳对RNA降解程度及有无污染情况进行验证;采用Nanodrop (OD260/280)法、Qubit和Agilent 2100分别测定RNA纯度、浓度及完整性。样品通过检测后,从总RNA中纯化出含有polyA尾的mRNA,用Fragmentation Buffer随机打断mRNA,然后将片段化的mRNA作模板,用6碱基随机引物合成cDNA双链。将双链DNA在5′端磷酸化,在3′端加入A,连接带T的接头。然后使用AMPure XP beads筛选cDNA片段,筛选后进行PCR扩增并对产物纯化。将PCR扩增产物热变性为单链DNA,然后用引物将单链DNA环化,得到DNA文库。文库检验通过后,根据有效浓度和目标数据量的要求进行文库池化,然后进行IlluminaHiSeq2500高通量测序。

图4 KEGG注释结果分布Fig.4 Distribution of KEGG annotation results

美国因为有非营利的“可汗学院”的支持,能够解决各学科优质教学资源(即大量优质“微视频”)的研制与开发问题[7],但在国内目前一直所进行的教育资源建设中完全针对翻转课堂开发的“微视频”尚处于零散化阶段,尚未形成学科化、层次化的系统。从无到有,再至覆盖各学科、各知识点、满足不同层次学生的需求,这样的教育资源建设将是一个漫长的过程,即短期内无法从宏观角度解决目前翻转课堂本土化过程中出现的视频内容不科学的问题。

图5 GO注释结果分布Fig.5 Distribution of GO annotation results

2.3 翘嘴红鲌转录组SSR位点数量及分布

与NR数据库进行比对注释(图3),发现翘嘴红鲌与鱇浪白鱼(38.66%)、呆鲦鱼(15.17%)、鲤鱼(6.28%)、犀角金线鲅(3.93%)、白甲鱼(3.55%)、安水金线鲅(3.29%)、滇池金线鲃(3.09%)、金鱼(2.87%)、露斯塔野鲮(2.65%)、虎皮鱼(2.19%)、斑马鱼(1.88%)、草鱼(1.29%)、矛尾鱼(0.82%)、大牙盲鬚鳚(0.77%)具有较高的序列同源性。

目前,很多商业银行为了防范恶意攻击行为和欺诈风险事件的发生,在网络防护和风险监控均采取了控制措施并部署了监控规则,很大程度防范了网络安全入侵和业务欺诈攻击。但是,一般商业银行的互联网应用提供功能种类多、分支多,黑客为了找到欺诈客户的可能性,尝试利用不同序列组合进行手工探测,以达到突破正常业务规则的目的。发现这种恶意探测行为主要面临以下两点困难:

图6 不同碱基重复类型SSR的分布Fig.6 Distribution of SSR with different base repeat types

3 讨论

翘嘴红鲌是中国淡水四大名鱼之一,由于繁殖速度很快,且肉质鲜美,因此有着较高的经济价值。通过转录组测序数据分析,可以获得未知的基因和稀有的基因,从而准确地研究基因表达差异、基因组成变异、分子标记筛选等相关生物学问题[2-5]。本试验通过对翘嘴红鲌的不同组织转录测序分析,共获得46 332条平均长度在934 bp的unigene序列和58 351条平均长度在1 101 bp的transcript序列,Q20均在98.01%,Q30均在94.01%,说明其测序结果质量可靠。对GO功能注释进行过滤和筛选,可获得更有意义的功能信息。在翘嘴红鲌的GO功能注释中,28 884条unigenes分配到53个功能群,发现结合、催化活性和转运器活性在分子功能中的注释序列量最多。细胞部分、膜部分和细胞器在整个细胞组分中的注释序列数量最多。细胞过程、新陈代谢过程和生物调节在整个生物过程中的注释序列数量最多。这一现象与黄鲈鱼[28]、鲢鱼[29]、虹鳟[30]的结果相一致。KEGG注释结果显示,有21 890条unigenes注释到新陈代谢、基因信息处理、环境信息处理、人体疾病、有机体系统、细胞过程等6大代谢途径中。发现有机体系统和人类疾病中分布的unigenes较多,说明unigenes涉及的代谢通路和次生物质的生物合成较多。KEGG通路分析和基因注释为进一步研究翘嘴红鲌的基因功能提供了相关依据。

SSR的分布和丰富度在不同物种间存在着差异[31]。本研究对嘴红鲌的转录组信息进行SSR位点分析,从419 549条unigene序列中,共发现33 405个位点分布在21 396条unigene中,其发生频率达50.99%,出现频率达79.62%。与其他水产生物的SSR出现频率相比,明显高于江鳕[32](10.27%)、牙鲆[33](27.12%)、银鲳[34](2.62%)、翘嘴鳜[35](27.51%)、黄姑鱼[36](33.30%)、曼氏无针乌贼[37](39.68%)、罗氏沼虾[38](38.65%)、密斑刺鲀[39](28.16%)、口虾蛄[40](14.15%)的出现频率。表明翘嘴红鲌是一种转录组中SSR含量充足的物种,SSR含量较高,且测序质量处于较高水平,为后期群体遗传多样性研究提供了相对充足的转录组序列资源。

4 结论

本研究对翘嘴红鲌肌肉和肝脏组织进行转录组测序,共获得967 109 550个干净读数、80 945 107条unigene,Q20均在98.01%,Q30均在94.01%。unigene在不同数据库获得功能信息注释,初步阐明翘嘴红鲌基因涉及的功能、生物过程、代谢通路类型等,为后续发掘翘嘴红鲌功能基因及相关分子生物学的研究提供相关依据。

猜你喜欢
核苷酸位点测序
单核苷酸多态性与中医证候相关性研究进展
杰 Sir 带你认识宏基因二代测序(mNGS)
徐长风:核苷酸类似物的副作用
镍基单晶高温合金多组元置换的第一性原理研究
CLOCK基因rs4580704多态性位点与2型糖尿病和睡眠质量的相关性
二代测序协助诊断AIDS合并马尔尼菲篮状菌脑膜炎1例
Acknowledgment to reviewers—November 2018 to September 2019
二项式通项公式在遗传学计算中的运用*
基因捕获测序诊断血癌
单细胞测序技术研究进展