基于数字相关模式识别的n/γ甄别方法研究

2021-10-09 14:24胡创业何高魁陈福龙
原子能科学技术 2021年10期
关键词:模式识别余弦夹角

胡创业,何高魁,陈福龙,刘 威

(1.中国原子能科学研究院 核技术应用研究所,北京 102413;2.南华大学 核科学技术学院,湖南 衡阳 421001)

目前n/γ甄别的主流方法是数字脉冲波形甄别方法(DPSD),其主要包括基于时间域特征的上升时间[1]、过零时间[2]、电荷比较[2]和脉冲梯度分析法[3];基于频率域特征的频率比较和梯度法[4];基于时间和频域局部特征的小波变换甄别法[5];基于支持向量机(SVM)[6]和BP神经网络[7]等机器学习甄别方法等。模式识别是人类的一项基本智能,计算机模式识别在20世纪60年代初迅速发展并成为一门新学科。模式识别是指对表征事物或现象的各种形式(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程,是信息科学和人工智能的重要组成部分。数字相关模式识别(DCPR)法已被应用于文本数据挖掘与分类、信息检索、信息过滤、机器翻译和文本查重等文字识别、语音识别、指纹识别和生物认证、遥感图像识别和医学诊断等领域,取得较好的人工智能分类效果。

近几年来,国内外学者开展了基于DCPR法的n/γ甄别相关方法研究。文献[8]在2011年最早开展此方法用于n/γ甄别研究,得到的结论是低能区品质因子(FOM)小于1;文献[9]在2015年在讨论数字化仪采用不同采样率和垂直分辨率对甄别方法FOM影响时提到了DCPR法,其采用BC501液闪探测器和241Am-9Be源,但并未对DCPR法作重点介绍;文献[10]在2018年对该方法进行了相关研究得到低能区FOM在0.82左右。文献[8]的散点图随n和γ射线能量增加发生明显弯曲现象,夹角弧度先减小后增大;文献[10]的散点图也有弯曲现象,夹角弧度随n和γ射线能量的增加也是先减小后增大;文献[9]的样本数例相对较少,散点图亦发生了轻微弯曲。通过对文献[8-10]分析发现,三者对DCPR法进行研究时均采用的是以γ射线作为参考脉冲计算的夹角余弦和弧度,能否采用n作为参考脉冲进行夹角相似度计算,目前国内外学者尚未见研究,本文开展以n作为参考脉冲的DCPR法研究,探讨采用n作为参考脉冲后FOM的大小及FOM的影响因素。

1 实验数据获取和预处理

本文的数据获取框图如图1所示,采用241Am-9Be放射源、美国ELJEN公司φ5×2 inch的EJ301液体闪烁体探测器、CAEN公司的数字化仪DT5751和PC机,获得的脉冲波形数据采用数据平滑、归一化和最大值对齐等方法进行预处理。

图1 数据获取框图Fig.1 Schematic view of data acquisition system

EJ301液体闪烁体探测器主要由C和H等低原子序数物质组成,γ射线与液体闪烁体探测器发生相互作用主要是康普顿效应,因此只能利用康普顿边缘进行能量刻度,本工作能量刻度采用137Cs和60Co源,结合241Am-9Be的12C*第一激发态退激γ射线能量为4.439 MeV,最终确定探测器高压为-1 750 V。

2 相关模式识别法原理

相关模式识别是通过特征向量提取和相似度计算将数据区分成不同类别的聚类行为。相似度计算法有基于欧式、余弦、杰卡德、海明和最小编辑距离等。目前n/γ甄别采用的是余弦相似度计算法,假设两个向量为a(x1,y1)和b(x2,y2),由余弦定理可得:

(1)

cosθ=

(2)

余弦相似度计算法中两个向量夹角余弦值作为衡量两个向量之间差异的大小。余弦值越接近1,表明两个向量越相似;余弦值越接近于0,表明两个向量越不相似。

多维空间向量X(Xistart,Xistart+1,…,Xistop)和Y(Yistart,Yistart+1,…,Yistop)的余弦函数为:

(3)

式中,istart、istop为空间向量维数的起点和终点。在本文中istart和istop分别代表参与运算的n和γ脉冲信号空间向量维数的起点和终点(图2)。

图2 参与运算的脉冲信号起点和终点Fig.2 istart and istop of pulse signal involved in calculation

3 讨论

3.1 参考脉冲选择

DCPR法中参考脉冲的选择对FOM有较大影响,首先取上升沿最大值10%作为起点,下降沿10%作为终点计算脉冲宽度。选择参考脉冲时依据脉冲宽度的直方图进行筛选,窄的脉冲是γ,宽的脉冲是n。DCPR法计算时分别挑选出1个n和1个γ作为参考峰。20万个样本中n和γ的脉冲宽度分布如图3所示。

本文参考脉冲选择采用以下2种方案。

1) 方案1

选择图3中γ和n脉冲宽度频率最大、脉冲宽度为24 ns的γ和36 ns的n作为参考脉冲,选取istart=36 ns、istop=181 ns计算出相对n和γ参考脉冲的余弦值直方图,如图4所示。由图4a可看出,余弦值在0.97附近存在一高斯分布,它是γ脉冲和36 ns中子参考脉冲夹角余弦值分布直方图;余弦值在1附近的直方图是高斯分布的一半,是由于36 ns参考脉冲附近的中子利用余弦值在利用式(3)计算时并无正负区别,故造成此分布。

图3 脉冲宽度分布Fig.3 Histogram of pulse width

a——以36 ns的n作为参考脉冲;b——以24 ns的γ作为参考脉冲图4 方案1余弦值直方图Fig.4 Histogram of cosine for case 1

2) 方案2

选择脉冲宽度较窄的γ和较宽的n作参考脉冲,它们与脉冲宽度频率较大处的γ和n信号夹角余弦值会减小,将出现双高斯峰分布。本文选择脉冲宽度为13 ns的γ和为61 ns的n作为参考信号,选取istart=36 ns、istop=181 ns进行计算得到的余弦值直方图如图5所示。图5中出现两个高斯脉冲,且图5b的情况优于图5a,这表明当选取脉冲宽度61 ns的n作为参考脉冲时,其FOM优于选取脉冲宽度13 ns的γ作为参考脉冲。因此,本文最终选取方案2中脉冲宽度为61 ns的n作为参考脉冲。

3.2 参考脉冲波形的FOM

本文依据方案2通过将多组61 ns的n信号取平均作为参考脉冲,istart和istop分别取36 ns和181 ns,其n/γ的FOM计算公式为:

(4)

式中:μn和μγ分别为n峰和γ峰的均值;FWHMn、FWHMγ分别为n峰和γ峰的半高全宽。FOM越大,表明甄别效果越理想,通过高斯拟合计算得到FOM=1.03(图6)。

a——以13 ns的γ作为参考脉冲;b——以61 ns的n作为参考脉冲图5 方案2余弦值直方图Fig.5 Histogram of cosine for case 2

图6 计算的品质因子Fig.6 Calculation quality factor

3.3 istart和istop对FOM的影响

1) istart对FOM的影响

从图2可看出,n/γ在上升沿和最大值附近差异不大,主要差异在下降沿部分。本文将istop固定为181 ns,计算出取不同istart时的FOM,如图7所示。当istart太小时,信号的上升沿和最大值均参与计算,由于脉冲信号上升阶段和最大值附近差异小但对整个余弦值计算贡献大,此时FOM并不是最好;当istart太大时,γ脉冲信号参与余弦值计算的空间向量维数太小,不能很好地将γ信号区分开。因此,istart的取值对FOM影响较大,当istop取181 ns、istart取32 ns时FOM最大。

图7 不同istart的品质因子Fig.7 FOM of different istarts

2) istop对FOM影响

将istart固定为32 ns,改变istop大小计算得到对应的FOM,结果如图8所示。可看出,istop的取值对FOM的影响较小,当istop取150~180 ns之间时效果相对较好,在161 ns时FOM取得最大值1.137。

图8 不同istop的品质因子Fig.8 FOM of different istops

通过上述讨论可知,FOM对istart的依赖性很大而对istop的依赖性较小,依据最佳参数做出余弦值和脉冲积分(电荷量)的散点图和热度图,如图9所示,可看出,散点图随能量升高并未出现弯曲情况。

4 结论

本文研究结果表明数字相关模式识别法可用于甄别n和γ,脉冲宽度较窄的γ和较宽的n作参考脉冲较脉冲宽度频率最大的γ和n作参考脉冲效果好,且将n作为参考脉冲较文献[8-10]选取γ作为参考脉冲的效果更好。istart的取值对FOM影响较大,应选取在32 ns最为合适,istop的取值对FOM的影响不大,取150~180 ns的效果相对较好。本文以脉冲宽度为61 ns的n作为参考脉冲,取istart=32 ns、istop=161 ns得到241Am-9Be源最高FOM为1.137,取得了较好的甄别效果。

a——散点图;b——热度图图9 电荷量和余弦值的散点图和热度图Fig.9 Scatte plot and heatmap plot for charge vs cosine

猜你喜欢
模式识别余弦夹角
探究钟表上的夹角
求解异面直线夹角问题的两个路径
任意夹角交叉封闭边界内平面流线计算及应用
UPLC-MS/MS法结合模式识别同时测定芪参益气滴丸中11种成分
两个含余弦函数的三角母不等式及其推论
第四届亚洲模式识别会议
实施正、余弦函数代换破解一类代数问题
直线转角塔L形绝缘子串夹角取值分析
分数阶余弦变换的卷积定理
图像压缩感知在分数阶Fourier域、分数阶余弦域的性能比较