利用朴素贝叶斯和多元logistic回归构建月经血mRNA标志分析模型

2023-12-01 06:24张琦赵禾苗杨康陈静杨瑞琴王冲
法医学杂志 2023年5期
关键词:后验体液分泌物

张琦,赵禾苗,杨康,陈静,杨瑞琴,王冲

1.中国人民公安大学,北京 100038;2.瓦房店市公安局,辽宁 大连 116300;3.公安部鉴定中心 法医遗传学公安部重点实验室,北京 100038;4.西安市公安局,陕西 西安 710038

月经血是法医物证检验中的一类重要物证,对其准确识别有助于判断案件的性质,如通过鉴定现场血痕是否为月经血来判断该案是否存在暴力行为的可能,排除或确定嫌疑人范围,为案件性质的确定提供依据,为进一步侦查提供方向。已有研究[1]证明,以mRNA 分析法为代表的RNA 分析法能够有效鉴别体液斑迹种类,为案件侦查和法庭判案提供参考。随着分子生物学的发展,越来越多在经期子宫内膜脱落细胞中特异性表达的RNA 标志被发现,为月经血体液斑迹的鉴定提供了可能。研究[2]对特异性标志的检出结果只能进行阳性、阴性的定性描述,难以准确解释检测结果。随着诉讼过程对证据证明力要求的提升,法庭更加关注体液样本鉴定的可靠性与准确性,为此,需进行大量的样本检验和统计学计算,从定量的角度描述月经血相关RNA 标志的检验结果,为案件侦办提供更加强有力的证据支持。

2016 年,DE ZOETE 等[3]利用朴素贝叶斯(Naïve Bayes,NB)和多元logistic 回归(multivariate logistic regression,MLR)2 种分类方法构建了分类模型,用过往研究中的RNA 检测数据进行模型的训练和测试,以定量形式呈现2 种分类模型的计算结果。结果表明,NB 模型和MLR 模型能基于特征属性对样本进行分类,并计算返回某类别的后验概率值,据此可以得到类似于DNA 检验中的似然比的概率型数据来解释RNA 检验结果。

本研究对样本中月经血特异性mRNA 标志进行批量检测,统计特异性标志的相关数据,作为训练集构建NB 和MLR 分类器,为月经血特异性mRNA 标志检测结果的解释提供新的技术方法。

1 材料与方法

1.1 仪器和试剂

QIAcube®全自动核酸纯化仪(德国Qiagen 公司),ProFlexTMPCR 系统(美国Applied Biosystems 公司),3500xL 基因分析仪(美国Applied Biosystems 公司),RNeasy Micro 试剂盒(德国Qiagen 公司),InvitrogenTMSuperScriptTMⅢ第一链合成系统(美国Invitrogen 公 司),Applied BiosystemsTMAmpliTaq GoldTMDNA 聚合酶(美国Thermo Fisher Scientific 公司),2×TransStart®FastPfuFly PCR SuperMix(北京全式金生物技术股份有限公司),Hi-DiTMFormamide(美国Applied Biosystems 公司),Typer500 内标(公安部物证鉴定中心)。

1.2 样本采集

月经血样本86 份、外周血和阴道分泌物样本各48 份、唾液和精液样本各24 份。月经血样本来自志愿者提供的经期第1~2 天的卫生巾,为22~25 岁的健康女性;外周血样本一部分使用采血专用卡收集,另一部分使用医用一次性真空采血管收集;精液使用50 mL 离心管收集;自然流出唾液使用拭子蘸取;阴道分泌物采用阴道拭子收集。血卡存放于常温干燥处,其余样本储存在-80 ℃的冰箱中。

本研究的样本采集经公安部物证鉴定中心伦理委员会审核批准(审准号2020—013,批准日期2020年7 月7 日),采集过程遵循相关流程和协议,撰写知情同意书,并指导全部提供生物样本的志愿者签署。知情同意书内容包含研究的目的、步骤、获益、风险、可能带来的不便或不适等。

1.3 标志选择

通过文献检索和表达谱芯片筛选,结合本实验室前期使用的荧光标志,本研究选用B2M[4]作为管家基因,选用基质金属蛋白酶(matrix metalloproteinase,MMP)7[4]、MMP11[4]、MMP3[5]、斯钙素-1(stanniocalcin-1,STC1)[5]和孕激素相关子宫内膜蛋白(progestogens associated endometrial protein,PAEP)[6]作为月经血特异的mRNA 标志,管家基因B2M 和5 种月经血特异性标志的6 对引物序列如表1 所示。上述标志均经琼脂糖凝胶电泳、测序、灵敏度和特异度的初筛,随后进行荧光引物合成用于本次研究。

表1 月经血特异性mRNA 和管家基因B2M 的PCR 引物Tab.1 PCR primers for menstrual blood specific mRNA and housekeeping gene B2M

1.4 总RNA 提取、逆转录和单标志扩增

按RNeasy Micro 试剂盒、InvitrogenTMSuper-ScripTMⅢ第一链合成系统、Applied BiosystemsTMAmpliTaq GoldTMDNA 聚合酶和2×TransStart®FastPfuFly PCR SuperMix 2 种聚合酶体系说明书进行提取、逆转录和扩增。10 µL 扩增体系在ProFlexTMPCR 系统上进行扩增,扩增条件:95 ℃ 15 min;95 ℃ 20 s,60 ℃30 s,72 ℃ 40 s,36 次循环;72 ℃ 10 min,4 ℃保存。

本研究同时检测6 种标志的最低检测阈值,共设置20、10、4、1、0.5、0.2、0.1、0.05、0.02、0.01、0.002 和0.001 ng 12个RNA起始量,每个起始量平行扩增3次,综合3 次检验结果对检出率和信号稳定性进行分析。

1.5 毛细管电泳

按1 000∶30 体积比混合Hi-DiTMFormamide 和Typer500内标,取10 µL加入96孔板中,加入1 µL PCR产物混合均匀。在3500xL 基因分析仪上进行电泳检测。电泳数据在GeneMapper®ID-X1.5 软件(美国Thermo Fisher Scientific 公司)上进行分析,得到管家基因和月经血特异性标志在每份样本中的检出情况。

1.6 统计学分析

使用SPSS 22.0 软件(美国IBM 公司)绘制R×C列联表,并根据列联表的数据计算条件独立检验的单尾P值,以检验水准α=0.01 进行Fisher 检验。以月经血特异性标志的检出情况为独立的特征属性,根据独立性检验的结果,使用MMP3、MMP7 和MMP11 的检出情况作为分类依据。MLR 分类器不受条件独立性的影响,使用全部5 种标志的检出情况作为分类依据。将全部数据分为月经血和非月经血。应用Wolfram Mathematica 11.3 软件(美国Wolfram Research公司)对数据进行NB 和MLR 分类[7]。将收集的样本检测数据作为已知体液类型的训练集对分类器进行训练之后,通过训练好的模型,对训练集进行测试,将得到的分类结果和原有的结果进行对比,计算正确分类的数目占总数的比例,得到该模型训练集的准确率。最后,将已知体液类型的样本检测数据(测试集)代入分类器,得到不同体液的分类情况,再计算每份样本返回正确分类的后验概率(即月经血是月经血的概率以及外周血、阴道分泌物、精液和唾液是非月经血的概率),分别评估模型的可靠性。

2 结果

2.1 单标志扩增结果判读

6种标志成功扩增后得到的毛细管电泳结果(图1)显示,经梯度稀释检验,所有标志在起始总RNA 量为0.01 ng 时均可检出,在总RNA 量为0.1 ng 时峰高较为稳定。

图1 6 种标志扩增产物在0.1 ng RNA 起始量时的毛细管电泳结果Fig.1 Capillary electrophoresis results of 6 markers with 0.1 ng RNA input

2.2 月经血特异性标志和管家基因在不同体液样本中的扩增情况

所有检测样本中6种标志的扩增情况(表2)显示,5 种特异性标志在月经血样本中有较高的检出率。管家基因B2M 在所有体液中普遍检出,可作为衡量样本RNA是否成功提取及进行后续反转录的依据。

表2 月经血特异性标志和管家基因在不同体液样本中的检出率Tab.2 Detection rate of menstrual blood specific markers and housekeeping gene in different body fluid samples (%)

2.3 独立性检验

5种月经血特异性标志在86份月经血样本中检出情况的Fisher 检验结果(表3)显示,在10 组P值中,MMP3标志的检出独立于其他4种标志,之间的P值均大于0.01。MMP11 和MMP3、MMP7、STC1 3 种标志相互独立。MMP7 只和MMP3、MMP11 两种标志相互独立。STC1 只和MMP3、MMP11 两种标志相互独立。PAEP 标志的检出只和MMP3 相互独立,和其余标志均不独立。

表3 5 个标志的Fisher独立性检验P 值Tab.3 P values of the Fisher exact tests for 5 markers

2.4 NB 分类器和MLR 分类器分类结果比较

由表4可知,2种方法分类阴道分泌物时准确率均过低。NB 分类器只判别出8 份阴道分泌物样本为“非月经血”,其余40 份全部被归类为“月经血”。MLR 分类器判别出16份阴道分泌物样本为“非月经血”,其余32份被归类为“月经血”。由于2种分类器未能将阴道分泌物和月经血进行有效的区分,降低了分类器的准确性。外周血、精液和唾液的区分度较好,MLR 分类器在所有体液中的准确性均高于NB,超过95%的外周血、精液和唾液被归类为“非月经血”。

表4 2 种分类器对不同体液的分类准确率Tab.4 Classification accuracy of different body fluids by two classifiers (%)

以1.6 节中的计算方法计算后验概率,由表5 可知,这2 种方法得到的后验概率值较为接近,只有较少的值差异较大。尽管表4 的结果证明,MLR 分类器分类月经血时总体准确率高于NB,但其计算得到的月经血后验概率普遍低于NB。

表5 2 种分类方法的后验概率分布信息Tab.5 Posterior probability distribution information of two methods

3 讨论

本研究构建的分类器对外周血、精液和唾液的区分度较好,准确率普遍超过80%,因此,本研究提出的月经血鉴定方法能够在需要区分月经血与外周血的实际案件中得到较好的应用。其中MLR 分类器在所有体液中的准确性均高于NB 方法,超过95%的外周血、精液和唾液被正确归类为“非月经血”。

NB 方法要求各特征之间相互独立,对测试集样本的选择有较高要求,只有保证志愿者来自多种群体、体液类型足够多、样本量足够大,才能保证测试集样本的条件独立性、随机性和分布正态性,使计算结果更准确。本研究中只有MMP3、MMP7 和MMP11 这3种标志的统计结果符合要求。在10组P值中,有4组的P值小于0.01,说明标志之间并不全部支持条件独立性的假设。MLR 法在分类时不需要条件独立性假设,此方法获得的后验概率取决于训练集中不同体液类型的相对频率。MLR 分类器的准确性高于NB,不仅与算法本身有关,也有前者使用的特征点(5 种标志)多于后者的原因。

本研究选用的各标志之间都出现了一定程度的交叉反应,如MMP3 在除外周血的其他体液斑迹中均有较高的检出率,特异度较差,而其他标志(如MMP11)灵敏度较低、特异度较高。出现上述情况除了与标志本身的性质有关,也与采样、扩增条件、引物特异性等相关。提示采用单个标志进行体液斑迹的组织来源推断是不可靠的,标志数量增加,检验结果将更加稳定、可靠。增加检验更多的特异性标志,能够在后续的统计分析过程中提供更多的特征属性,以达到优化月经血预测模型、提高RNA检测准确性的目的。

5 种月经血特异性标志在阴道分泌物中检出率极高,分别为91.67%(MMP3)、91.67%(MMP7)、64.58%(MMP11)、77.08%(PAEP)和91.67%(STC1)。在分类器对阴道分泌物进行初步验证时,准确率较低。NB分类器只判别出16.67%阴道分泌物样本为“非月经血”,其余83.33%被归类为“月经血”。MLR 分类器判别出33.33%阴道分泌物样本为“非月经血”,其余被归类为“月经血”。本研究结果提示,尽管月经血不完全等同于血与阴道分泌物的混合物,但阴道分泌物在采集时不可避免地混合了一部分子宫内膜细胞,使得在子宫内膜中特异性表达的基因可能在阴道分泌物样本中被检出,因此,在检验推断阴道分泌物时,亦可考虑结合使用月经血特异性标志。若期望能够准确区分组成成分相近的体液斑迹(如月经血和阴道分泌物),则后续的研究应当检测更加细分的标志,为部分复杂疑难案件的体液斑迹识别(如性侵案件中的月经血和阴道破裂出血)提供更有价值的线索。

此外,分类器的分类依据是后验概率最高的类别,如当月经血样本MMP3、MMP7、MMP11 的检出情况依次为“+”“+”“-”(即“检出”“检出”“未检出”)时,则NB 分类器算出的后验概率,有0.503 的概率是“月经血”,有0.497 的概率是“非月经血”,尽管这样的样本最终被归类为月经血,但显然可信度存疑。为了更准确地对RNA 检测结果进行解释,必须检验返回正确分类的后验概率。计算“月经血”与“非月经血”2 种类别的后验概率的比值即可得到类似于DNA 鉴定的似然比,使实际案例中提取到的生物物证具有更高的解释力。此外,特异性引物只有月经血特异,而其他体液只有一个大的分类为“非月经血”,因为非月经血的体液不只包含上述几种,先验概率加起来不为1,而先验概率无法计算,只能依靠扩大样本量和增加体液种类的方法来减轻该因素的影响。

本研究发现,当选择使用复合扩增体系检测样本时,由于不同供者的个体差异,基于固定的引物浓度配比下,其扩增的结果可能会有一定的差异,会出现某个标志峰值较低或难以检测的情形,此时为了谨慎起见,一般会考虑对复合扩增体系下阴性的标志作单一标志扩增检测,可能会出现单一扩增体系检出的情形。为确保结果的可靠性,本研究使用了单一扩增体系进行验证确认的方法。本研究利用两种统计学方法,对月经血特异性标志进行统计学分析,并初步构建了分类器,实现了对未知体液斑迹的归类区分,从定量的角度解释了检验结果,为后续实际案件的应用奠定了基础。在未来的研究中,应增加检验标志的数量和检验样本的数量,以获得更为稳定的结果。

猜你喜欢
后验体液分泌物
基于对偶理论的椭圆变分不等式的后验误差分析(英)
贝叶斯统计中单参数后验分布的精确计算方法
川木香煨制前后主要药效成分在体外生物体液中稳定性
根系分泌物解铝毒作用研究进展
一种基于最大后验框架的聚类分析多基线干涉SAR高度重建算法
小儿支原体肺炎体液免疫功能与hs-CRP检验的临床意义
维药艾菲提蒙汤治疗异常体液型高脂血症的临床研究
花生根系分泌物的鉴定和化感作用研究
体液免疫9项指标总误差与不确定度比较分析
5种眼角分泌物须警惕