外显子组测序技术的原理及应用概述

2018-11-29 15:06李法君
生物学教学 2018年2期
关键词:外显子变异基因组

李法君

(山东省潍坊科技学院 262700)

随着社会生活水平的提高,健康问题越来越多地受到关注。传统遗传疾病的鉴定多采用染色体显带分析、核型分析和遗传标记等方法来寻找与疾病相关的DNA变异。这些方法虽然各有特点,但都存在效率低下、工作量大和分辨率低等问题。21世纪初,随着人类基因组计划和国际人类基因组单体型图计划的相继完成以及高通量生物芯片技术的快速发展,研究人员得以利用全基因组关联研究(genome-wide association study,GWAS)的方法来筛选复杂疾病的易感基因,并取得了举世瞩目的成就,掀起了人类基因组研究的第三次浪潮[1]。但GWAS技术也存在自身的局限性,如对稀有的变异和结构变异不敏感,易出现假阳性结果等[2,3]。与此同时,研究人员还意识到对疾病及性状表型起着关键作用的变异主要来源于编码区,即外显子的差异[4,5],而前期的研究则多聚焦于非编码区的变异,对外显子变异的关注度较欠缺。由于全基因组测序费用高昂,因此在研究可用的财力资源一定的条件下,外显子组测序技术更适合探索高深度测序数据的大批量样本研究。基于上述原因,众多研究者开始优先关注编码区的信息,从而加速了外显子组测序技术的出现。

外显子是蛋白质的编码区,是真核生物基因组的一部分,含有合成蛋白质所需的遗传信息,基因组中的全部外显子称为外显子组。如人类基因组大约有1.8×105个外显子,总长30Mb,尽管只占人类基因组的1%,但存在与个体表型相关的大量功能变异。研究表明,人类85%以上的致病基因都是由外显子碱基突变造成的[4]。2009年8月,外显子组测序技术第一次成功应用于疾病致病基因的鉴定,Ng等[6]对4名无亲缘关系的弗里曼谢尔登综合征患者[已知该病的致病基因为肌球蛋白重链3基因(MYH3)]及8名对照组的DNA样本进行外显子组测序,通过对12个样本的测序数据进行比较分析,准确找出了位于MYH3中的致病突变,这也预示了其作为遗传学研究的重要工具,具有广阔的应用前景。

1 外显子组测序技术的原理

外显子组测序主要包括外显子序列的捕获富集、DNA测序和数据统计分析三个主要步骤。

1.1 外显子组的捕获富集 目前,主要通过罗氏(NimbleGen)[7]和安捷伦(Agilent)[8]两种捕获芯片对外显子序列进行富集。其基本原理是:首先将基因组DNA随机打断成200~300bp左右的片段,随后进行DNA片段平末端修复,5′端加磷酸基团,3′端加PloyA尾,通过TA连接将接头序列加到片段两端,经过一轮PCR扩增后成为完整的片段文库;然后将这些DNA片段与捕获芯片进行杂交,从而得到富集的目标片段;随机把目的片段连接成长链DNA片段,然后再次随机打断并在其两端连接上测序接头,然后用与接头相匹配的序列为引物进行PCR扩增,经质量检测合格后的外显子组文库即可上机测序。

1.2 DNA测序 外显子组的测序以二代测序技术为主,其中大部分报道的外显子组测序技术确定的致病基因使用的平台是Illumina测序仪。其测序的基本原理是边合成边测序,用不同颜色的荧光标记四种不同的dNTP,当DNA聚合酶合成互补链时,每添加一种dNTP就会释放出不同的荧光,根据捕捉的荧光信号并经过特定的计算机软件处理,从而获得待测DNA的序列信息。随着测序技术的发展,第三代测序技术也用在外显子组的测序方面。第三代单分子测序仪不需要扩增建立DNA文库,而是边合成边测序将随机打断后的片段3′末端加上PolyA,通过合成互补链技术对数百万个DNA片段进行测序。第三代测序仪测序通量高,测序读长较长,可达到10 kb,更加有利于基因组的拼接,但其错误率也相对较高,需要进行高覆盖度测序以确保较高的测序精度。

1.3 数据统计分析 虽然外显子组测序得到的数据较全基因组测序要少许多,但仍会产生大量的数据。在如此庞大的数据中发掘出有意义的信号依然是一个巨大的挑战。数据分析主要包括常规的图像信息数据分析和生物信息学分析。图像信息数据分析主要包括图像的去噪音、锐化、定位和偏移校正、依据光强度获得碱基等;生物信息学分析的目的是挖掘变异位点,包括单核苷酸多态性(single nucleotide polymorphisms, SNP)和短的插入/缺失片段(short insertion/deletions,Indels)。首先是通过质控排除测序过程中产生的低质量Reads,然后将高质量的Reads与参考基因组进行比对,统计SNP和Indels,并对这些变异位点进行注释、筛选并最终验证目的致病基因。

2 外显子组测序技术的应用

2.1 单基因疾病的检测 单基因病又称为孟德尔遗传病,是指由于单个基因突变而导致的疾病,常以孟德尔遗传模式存在于家系中。理论上,外显子组测序可发现同一基因座上外显子区域的所有突变,因而能快速直接地鉴定致病基因。Liu等[9]利用连锁分析将两个家族发作性疼痛病家系的致病基因定位在染色体3p22.3-p21.32上,然后再利用外显子组测序技术,在两个家系中发现SCN11A基因(电压门控钠离子通道α亚基的编码基因之一)的两个错义突变,最后结合家系内共分离分析以及SCN11A基因功能研究,确定SCN11A为家族发作性疼痛一个新的致病基因。此外,研究人员利用外显子组测序技术发现并验证了NCST基因(γ分泌酶的成分基因之一)的突变可导致逆向性痤疮的发生[10]。该成果对NCSTN基因突变的检测和逆向性痤疮的诊断、治疗具有十分重要的意义。

2.2 癌症等复杂疾病的检测 近来,外显子组测序在癌症的研究方面取得了众多科研成果。Jones等[11]对8个患者的肿瘤组织和正常细胞进行了对比测序分析,鉴定出了4个基因突变至少在2例肿瘤组织中发生,其中ARID1A基因(ATP依赖染色质重塑复合物的亚基之一)是新发现的致癌基因,而PPP2R1A基因(蛋白磷酸酶2A支架亚基基因)则是新发现的抑癌基因。Brastianos等[12]利用外显子组测序发现,在92%的颅咽管瘤患者中发现CTNNB1基因(钙粘相关蛋白β亚基1基因)具有突变,表明CTNNB1与颅咽管瘤的发生密切相关。

2.3 动植物研究中的应用 外显子组测序技术除了广泛应用在人类疾病研究领域之外,在动植物相关基因的研究中获得了大量的研究成果。Robert等[13]对96头猪的外显子组进行了研究,发现了几十万个核苷酸变异,根据检测到的核苷酸变化并结合产仔率,推测大量关键基因的突变可能是造成一些新生胚胎死亡的原因。Bolon等[14]对大约12万粒大豆种子进行了快中子辐射处理,并结合外显子组测序技术,对与表型有关的候选基因进行分析,成功发现控制脂肪酸去饱和酶基因的丢失,该项工作的开展为后续功能遗传学研究奠定了基础。

3 展望

外显子组测序是介于全基因组关联分析与全基因组测序之间的基因分析策略,能较系统地发现基因组中蛋白编码区的主要遗传变异。与全基因组测序相比,外显子组测序技术具有高效、省时、省力和经济的特点,已在疾病研究中取得了重大突破。但外显子组测序也存在自己的不足:对非编码区变异的研究具有局限性,还不能覆盖所有编码区的致病变异;在目标区域的捕获时存在捕获不全、捕获偏差等现象;研究常见疾病的少见基因突变时需要的样本量比较大。尽管如此,外显子组测序技术依然是目前最高效、最经济、最省时的研究基因疾病的方法。随着芯片技术的进一步发展,相信外显子组测序可以更广泛地应用于相关疾病的诊断之中。

(基金项目:山东省自然科学基金面上项目,No.ZR2016CM12;山东省高等学校科技计划项目,No.J17KB112,No.J16LE59;潍坊科技学院博士基金,No.2017BS03)

猜你喜欢
外显子变异基因组
肌营养不良蛋白基因检测的评价
“植物界大熊猫”完整基因组图谱首次发布
我国小麦基因组编辑抗病育种取得突破
第一代基因组设计的杂交马铃薯问世
牛参考基因组中发现被忽视基因
变异
变异的蚊子
病毒的变异
人类组成型和可变外显子的密码子偏性及聚类分析
形的变异与的主题