郭科建,黄磊,李士林,殷才湧,汤真
1.山东省淄博市公安司法鉴定中心,山东 淄博 255000;2.复旦大学生命科学学院 上海 200092;3.山东省公安厅物证鉴定研究中心,山东 济南 250031
Y 染色体具有男性特有、父系遗传的特点,相比常染色体遗传标记有其独特的优点。Y-STR 具有非重组、单倍型父系遗传的特征,近年被广泛应用于家系排查、混合斑男性成分检测检验中,已成为公安机关侦破案件的重要手段之一[1]。Y 染色体分为拟常染色体区和非重组区,拟常染色区常与X 染色体发生重组,非重组区不发生重组,法医Y-STR 基因座的挑选多分布于非重组区,呈单倍型遗传,且多含有重复序列,在遗传过程中,极易发生突变,突变率约为4×10-3[1-3]。本研究通过采集山东省16 个地级市1 490 个家系祖孙三代人的样本,进行遗传多态性和突变率分析,以发现家系内部的遗传突变规律,为山东省Y-STR 数据的应用比对和国产试剂盒的研发提供遗传学基础数据。
山东省16 个地级市选择1 490 个汉族家系,分别为济南97 个、青岛104 个、淄博178 个、枣庄92 个、东营60个、烟台125个、潍坊93个、济宁118个、泰安78个、威海44个、日照60个、临沂82个、德州88个、聊城80个、滨州97 个、菏泽94 个,每个家系采集祖孙三代5 份血液样本,分别为“爷爷” “父1”“父2”“子1”“子2”,其中“父1”和“父2”均为“爷爷”的儿子,“子1”为“父1”的儿子,“子2”是“父2”的儿子,均通过常染色体检验确定亲子关系,要求家系之间无任何亲缘关系,并在当地居住5 代以上。在签署知情同意书的基础上使用经典型血样采集卡(长春市博坤生物科技有限公司)采集人员样本。共计5 960 对父子,7 450 份样本。本研究通过复旦大学伦理委员会生物医学研究项目伦理审批[审批号:复伦研批(FE22025R)号]。
上述7 450 份样本,均使用1.0 mm DNA 手工打孔取样器(北京华兴瑞安科技有限公司)取样。使用SureID®PathFinder Plus 扩增荧光检测试剂盒(宁波海尔施基因科技股份有限公司),反应体系为10 µL,包含4 µL 反应混合物,2 µL 引物混合物,4 µL 超纯去离子水,1.0 mm 血 卡。在9700 型PCR 仪(美国Thermo Fisher Scientific 公司)上进行扩增。PCR 程序:95 ℃ 5 min;94 ℃ 10 s,60 ℃ 1 min,70 ℃ 30 s,28 个循环;60 ℃ 15 min;4 ℃保存。使用3500xL 基因分析仪(美国Thermo Fisher Scientific 公司)进行检测,GeneMapperTMID-X 软 件v1.6(美 国Thermo Fisher Scientific 公司)对37 个Y-STR 基因座等位基因分型数据进行分析。按照《人类DNA 荧光标记STR 分型结果的分析及应用》(GA/T 1163—2014)要求,对分型、峰值达不到标准的样本重新检验,最终达到要求。观察到异常基因分型的样本,用Yfiler Platinum PCR扩增试剂盒(美国Thermo Fisher Scientific 公司)进行验证。
采用直接计数法对1 490 个家系中标记为“爷爷”的Y-STR 数据进行统计。计算37 个基因座中每个基因座的基因频率、单倍型频率、GD、HD 和DC[4]。多拷贝基因座用单倍型频率代替基因频率。
采用直接计数法统计上述5 960 对父子间遗传传递中各基因座的突变次数、基因型传递次数、一步突变和多步突变次数等。按照基因座突变率=某基因座突变次数/基因型传递次数[5]、家系突变概率=突变家系的数量/总家系数、父子突变概率=突变父子对的数量/总父子对数、回复突变率=回复突变次数/(总家系数×2×37),分别计算基因座突变率、家系突变概率、父子突变概率和回复突变率。根据网站https://statpages.info/confint.html 的方法计算95%置信区间(confidence interval,CI)。
1 490 个家系中标记为“爷爷”的样本37 个YSTR 基因座(包含4 个双拷贝基因座)共检出1 490 种单倍型,总体HD 值和DC 值均为1。37 个Y-STR 基因座共检出368 个等位基因,GD 值排名前四的基因座是4 个双拷贝基因座[DYS385(0.966 8)、DYF387S1(0.953 6)、DYF387S1(0.953 7)和DYS527(0.944 4)],GD 值最低的基因座为DYS645(0.103 2),该基因座的等位基因“.8”占比高达94.6%。37 个Y-STR 基因座单倍型分布见附表1,GD 值见表1。
表1 山东省汉族男性人群37 个Y-STR 基因座GD 值Tab.1 GD values of 37 Y-STR loci in Shandong Han male population(n=1 490)
在DYF387S1、DYS627、DYS518等15 个基因座上观察到33种92次微变异等位基因(表2),其中:“.2”出现74次,占80.4%;“.1”和“.3”分别出现8次和10次,分别占8.7%和10.9%。DYS627微变异等位基因种类最多,有6 种,DYS518微变异等位基因出现频次最高,达49次。此外,在DYS19、DYS437、DYS439等9个单拷贝基因座上观察到11 次双等位基因,平均概率为2.24×10-4,其中,DYS19为14/15 和15/16,DYS437为14/15,DYS439为11/13,DYS458为17/19.2,DYS518为36/37、DYS570为18/19、DYS576为18/20、DYS593为14.3/16、DYS643为10/11 和11/12。在DYF387S1、DYF404S1、DYS385、DYS527共4 个双拷贝基因座上观察到86 次多等位基因现象,平均概率为1.44×10-2,其中,DYS385观察到3等位基因2次,4等位基因1次;DYF404S1观察到3等位基因16次;DYF387S1观察到3等位基因41次,4 等位基因1 次;DYS527观察到3 等位基因22 次,4 等位基因3 次。DYS447在3 个样本上出现空等位基因,而相邻的DYS456和DYS444出现双等位基因,经过Yfiler Platinum PCR 扩增试剂盒验证发现,DYS447等位基因并未缺失,是因为这3个样本DYS447的等位基因分型分别为16、30.3和32.2,均超出了本研究所用试剂盒该基因座bin 的范围(17~30),但未超出验证试剂盒的bin 的范围(16~33),等位基因落在了临近的基因座上。
表2 微变异等位基因分布表Tab.2 Distribution of microvariant allelic loci
37 个Y-STR 基因座及其突变情况见表3,从表中可以看到,5 960 对父子对共检出220 520 次基因型传递,共检测到922 次等位基因的突变,平均突变率为4.2×10-3(95%CI 3.9×10-3~4.5×10-3)。突变发生在35 个基因座上,其中突变率最高的基因座是DYS576,突变率为16.4×10-3(95%CI 13.4×10-3~20.0×10-3),突变率最低的基因座是DYS596,突变率为0.2×10-3(95%CI 0~0.9×10-3);DYS438、DYS645基因座未发现突变。
表3 山东省人群37 个Y-STR 基因座的突变情况Tab.3 Mutations of 37 Y-STR loci in Shandong population
本研究1 490个家系中,发生突变的家系有668个,占44.8%,其中,518 个家系有一对父子发生突变,占77.5%,130 个家系两对父子发生突变,占19.5%,19 个家系有3对父子发生突变,占2.8%,1个家系中4对父子全都有突变,占0.15%,该家系突变全都发生在DYS19,分别为爷→父1(16→15),爷→父2(16→15),父1→子1(15→16),父2→子2(15→16)。在检测出的922次等位基因突变中,一步突变发生了881次,占总突变数的95.6%,两步突变17次,占总突变数1.8%,重复单位增加有447次(49.8%),重复单位减少有451次(50.2%),等位基因丢失出现了24次,占突变总数的2.6%。5 960对父子中,有839对发生突变,占14.12%。其中,756对父子发生单基因座突变,占90.11%,74对父子发生双基因座突变,占8.82%,9对父子发生三个基因座突变,占1.1%,这9对父子中有4对同时在DYS527、DYF404S1、DYF387S1发生缺失突变。
本研究共在6 个基因座上观察到10 次回复突变,分别出现在9个家系中,其中家系3出现两次回复突变(表4)。1 490个家系中每个家系都有两次三代等位基因传递,平均回复突变率为10/(2 980×37)=9.07×10-5。
表4 回复突变情况统计Tab.4 Statistics of revertant mutation
本研究收集的样本范围广、数量大,可以代表山东省汉族人群的真实情况,科学反映山东汉族人群的Y-STR 遗传规律。以家系为单位,采集三代人的样本,除了得出父子间等位基因突变率,也研究了家系突变率和回复突变。
本研究结果显示,1 490个山东汉族男性家系中,标记为“爷爷”的男性个体37个Y-STR基因座的HD值与DC 值均为1,说明该37 个基因座完全可以将山东省内任何两支无关家系区分开,能够满足法医实际工作需要。但是,个别基因座如DYS645,尽管其突变率为0,极其稳定,但GD 值仅0.103 2,极差的多态性削弱了其法医学实用价值。某些基因座的遗传多态性呈现明显的南北和民族差异,DYS389Ⅰ和DYS388在贵州三都水族的GD 值分别为0.124[6]和0.063 1[7],而他们在山东人群中的GD值分别为0.623 8和0.509 7。
本研究涉及的37 个基因座中,发现92 次微变异等位基因,这些等位基因在群体中的频率比较低。该变异的出现与等位基因的突变引起重复序列中核苷酸的缺失、插入、转换或者颠换有关[8]。另外,还有单拷贝基因座出现双等位基因,双拷贝基因座出现多等位基因,这可能是Y 染色体减数分裂过程中,同源染色体部分发生重组互换或基因座高度多态性造成[9-10]。通过观察上述特殊分型,他们的产生可以形成更多的单倍型,并且遵循孟德尔遗传定律,可以遗传给后代[11],在法医学应用实践中有着非常重要的作用。DYS447出现空等位基因,经验证发现,是试剂盒bin 的范围不同导致,提示法医工作者采用试剂盒互相验证的重要性。
5 960对父子对共发现922次基因突变,平均突变率为4.2×10-3,与湖南汉族3.6×10-3[1]、广东汉族4.4×10-3[2]、中国汉族4.1×10-3[3]相差不大。参照文献[12],将突变率大于10×10-3的基因座归为快速突变基因座,本研究中采用的试剂盒有DYF387S1、DYF404S1、DYS449、DYS518、DYS570、DYS576和DYS627共7 个快速突变基因座。但本研究发现,只有DYS576、DYS627、DYS518、DYS449在山东人群的突变率超过10×10-3,达到快速突变标准,DYF387S1、DYF404S1和DYS570未达到10×10-3,表明某些基因座突变率存在明显的人群差异。
922 次突变中,两步以内突变概率为97.4%,符合逐步突变模型[13](step-wise mutation model,SMM)猜想,等位基因增加与减少比例为447∶451,表明基因突变方向的随机性。本研究839 对突变的父子对中,90.11%发生在单个基因座上,未发现三个基因座以上突变。吴微微等[14]研究也表明,中国汉族同一家系男性成员之间,Y-STR 分型的容差局限在一定范围,35 个Y-STR 分型容差多在3 个基因座,3 步突变以内。在观察到的9 对3 个基因座同时突变的父子中,有4 对在DYS527、DYF404S1、DYF387S1共3 个基因座同时发生丢带,推测可能是因为这3个快速突变基因座的第二个拷贝均位于Y 染色体非重组区Yq11.23 区域,三者物理距离较近,在减数分裂时,该片段发生整体缺失导致,曾有报道[15]同样的现象也发生于Amelogenin、DYS456、DYS570及DYS576这4 个基因座。试剂盒的开发者也要考虑到这个问题,同一款试剂盒中尽量选择物理位置相对较远的基因座。
回复突变指的当基因突变再次发生时,又恢复成原来的基因。回复突变体现了基因突变的不定向性。回复突变在法医DNA 领域研究较少,其存在使家系内部的突变研究变得复杂,也让隔代突变的研究失去意义。本研究中,9.07×10-5的回复突变率虽然不高,但是在家族内部漫长的遗传过程中,会出现明显的叠加效果。
根据本研究结果,三代之内近45%的家系突变率和14%的父子突变率,对法医DNA 从业人员进行数据比对提出了巨大挑战,大大增加办案难度。同时,几十年后,随着数据库中有STR 分型数据的人员相继去世,数据库利用价值将大打折扣,如何长期有效地利用巨资搭建起来的数据库,是每一名法医DNA 检验人员需要认真考虑的问题。
综上所述,本研究获得了山东省人群37 个YSTR 基因座的遗传多态性数据和突变情况,为山东的Y-STR 数据库建设与法医学应用提供了重要的遗传学基础数据,给基层办案人员使用Y-STR 数据提供了参考,也为国产试剂盒的开发提供了思路和部分基础数据。