基于XGBoost 算法的预警模型研究

2022-10-11 07:37陆万万王维芳马煜敏
电子设计工程 2022年19期
关键词:特征提取警务粒子

陆万万,王维芳,马煜敏

(上海计算机软件技术开发中心,上海 201112)

在以前的警务工作中,犯罪线索多来源于线下举报,随着大数据技术的发展,警务信息化程度不断提高,为线上数据实时犯罪线索预警提供了可能性。犯罪预警基于对“五要素”进行研判分析,即人、事、地、物、组,从已有的历史警务数据中挖掘出潜在风险的犯罪人员,实现对犯罪活动的预知、预警、可防、可控[1-3]。

当今大数据时代下,警务数据资源丰富,数据资源采集、处理及存储技术为犯罪预警提供了技术支撑。随着大数据技术在警务工作中的深入应用,相关领域研究者在电信诈骗侦察、社会治安治理、预警恐怖犯罪活动等方面开展了大量大数据警务应用研究,以提高警务治理能力[4-8]。例如,中国人民公安大学的陈鹏等人引入机器学习识别风险人员身份特征,通过该模型以及二项逻辑回归算法实现对风险人员的预测预警[9]。山东省科学院情报研究所的魏墨济等人提出基于网络社交媒体大数据,构建社会立场主题库,通过观点挖掘技术及分类算法判断社会敏感话题事件危险观点持有者的倾向性,实现了一种新型网络实时犯罪防控预警机制[10]。为提高公安机关打击涉毒犯罪活动的能力,中国人民公安大学的石一婷采用Logistic 回归分析提取涉毒犯罪影响因素,构建涉毒犯罪预警模型[11]。陕西警官职业学院华艳红,采用麦克劳林公式以及泰勒公式来降低传统C4.5 算法信息增益率计算过程量,对传统决策树进行剪枝修改,得到了精确度较高的预警模型[12]。对此,基于以上研究以及警务工作的现实需求,以警务大数据为基础,该文研究一种基于RF-SMOTEXGBoost 的风险人员预警模型,为犯罪预警防控工作提供技术手段支持。

1 警务数据处分析与特征提取

1.1 警务数据分析

人们在生产生活过程中,会产生丰富的社会基础数据信息。因此,在智慧警务建设过程中,建立建全以人员数据为核心且覆盖到社会各层面的社会情报资源数据库,通过对数据信息进行分析和研判,建立数据模型,可实现提前预警的目标。

该文主要从人员的自然属性、社会属性、活动情况、关联事件案、财务情况、社会关系等情况,并细分维度进行人员数据信息的分析和处理。人员数据信息表如表1 所示。

表1 人员数据信息表

1.2 警务数据特征提取

分析上述四个维度的数据可知,人员数据具有多源异构性,且不同的数据层面存在结构化数据和非结构化数据,因此,需采用不同的数据处理方式进行警务数据特征提取。进而,将结构化与非结构化数据处理所得的特征数据进行归一化处理,形成特征文件。警务数据特征提取流程如图1所示。

图1 警务数据特征提取流程

1)人员基本信息

人员身份证号码、电话号码(手机、固话)、网络账号(即时通信、社交网络、网络论坛、网络邮箱、网盘、网购账号)等结构化数据便于特征提取,但对于职业、地址等非结构化数据需先分类处理再进行one-hot 编码。分类处理方式如下:

①所有职业归至20 个职业类别中,使用相应职业类别的one-hot 编码作为特征向量。

②样本的地理位置信息,例如,户籍地址、工作地点等,均采用行政区划代码来表示。

2)动态轨迹信息

该部分的数据主要包括三部分:民航、铁路等订票数据;网吧、旅馆登记数据;前往重点管控区域的记录数据。

①针对民航、铁路等订票数据:统计风险人员三年内民航、铁路订票次数及日期分布等相关特征。此外,统计风险人员前往重点管控区域的次数及日期等相关特征。

②针对住宿登记数据:统计风险人员三年内宾馆住宿或上网等相关特征。除此之外,统计前往重点管控区域住宿或上网等相关特征。

3)犯罪记录

犯罪记录主要包括该人员涉案次数等结构化数据以及犯罪描述等非结构化数据[13]。其中,犯罪描述通过归至相应犯罪类型,并对类型进行one-hot编码来量化。

4)风险行为记录

风险行为记录包括风险物品购买记录、与高危风险人员异常转账记录、与风险人员或境外异常人员通联记录三部分。

针对风险物品购买记录数据:购买风险物品危险等级采用one-hot 编码来量化,统计购买风险物品次数;异常转账记录进行one-hot 编码,并统计该样本与高危风险人员异常转账次数;统计样本与风险人员或境外异常人员的通联次数。

完成以上特征量化工作后,得到原始特征向量,再进行归一化处理。该文采用标准差标准化(zeromean)数据归一化方式,处理所得数据为标准的正态分布,归一化计算公式如式(1)所示:

式中,X*为归一化所得结果值,x为样本数据,μ为样本数据均值,σ为样本数据标准差。

表2 为原始样本特征数据示例。

表2 人员数据信息表

风险人员原始样本归一化后,其数据无单位如表3 所示。表3 中,风险人员原始样本通过归一化处理后,可以尽可能消除数据不同属性对数据建模的消极影响,加快收敛速率,提高模型研判精度。

表3 风险人员原始样本归一化数据示例

2 预警模型研究

基于以上警务数据综合分析,该文提出一种基于随机森林(Random Forest,RF)、SMOTE 过采样、粒子群算法(Particle Swarm Optimization,PSO)优化的极端梯度提升算法(Extreme Gradient Boosting,XGBoost),构建风险人员预警模型。

2.1 随机森林算法

预警模型建立初期需对高维稀疏的警务数据特征进行筛选过滤,因此,采用随机森林算法对警务数据特征指标的重要性进行排序,以便筛选出更具代表性的警务特征指标[14,17]。随机森林算法基于决策树理论,每次随机抽取含k个特征指标的数据子集,然后筛选其中一个最优特征指标进行划分。一般设定特征指标抽取个数k值为:

其中,d为特征指标数。随机森林算法计算流程如下:

1)通过n组袋外数据测试每棵决策树性能,计算得到决策树子模型的误差值errori(i=1,2,…,n)。

2)对n组袋外数据的第i组特征添加噪声干扰,计算得到添加噪声干扰后每棵树的误差值Errori(i=1,2,...,n)。

3)由以上步骤,计算可得前后两次添加噪声干扰后的误差变化平均值。

4)由于特征指标重要性与计算所得误差变化平均值呈正相关。因此,可得特征重要性公式为:

5)基于特征指标重要性数值对特征指标进行重要性排序并筛选出其中重要特征指标。

2.2 SMOTE过采样算法

以上通过随机森林算法筛选得到警务特征数据集,仍存在正负样本比例失衡问题,易导致预警模型过拟合,模型泛化能力差。因此,从数据的采样方法入手,将以上筛选得到的警务特征数据集通过SMOTE 过采样方法,生成少量样本来控制正负样本的数量以实现样本平衡[15-17]。

少量样本集定义为xi(i=1,2,…,n),xi的第j个属性定义为xij(j=1,2,…,m)。同理,若负样本集为yi(i=1,2,…,N),则yi的第j个属性定义为yij(j=1,2,…,m)。

xi的同类K-近邻定义为NE_Pi={ne_pik|k=1,2,…,K},异类K-近邻样本集为NE_Ni={ne_nik|k=1,2,…,K},近邻候选集合为CANDi={candik|k=1,2,…,K}。此外,当少量样本满足属于近邻候选集的条件下,允许生成新样本,同类K-近邻样本ne_pik与xi的距离定义为d(i,k)。

令少量样本x1∈NE_Pi,则生成定义新的少量样本为e1=[e11,e12,…,e1m],则第j个属性计算公式如下:

直至达到过采样率,重复计算式(4),得到m个样本子集,合成新的少量样本e1。

2.3 XGBoost算法

该研究预警模型基于XGBoost 算法实现风险样本数据的分类提取。对经随机森林算法和SMOTE过采样算法优化后的样本数据集采用基于XGBoost的预警模型进行训练。该文集成树模型XGBoost 算法通过目标函数项中含有的正则化项可有效避免算法过拟合问题[18-19]。此外,XGBoost 算法对具有稀疏特征的警务数据处理效果良好,通过残差拟合多次计算得到预警结果,提高分类精度。

该文建立的XGBoost算法将各类样本集定义如下:

设样本数据集为:

式(5)中,xi为第i个样本的属性集,yi为第i个样本所属类别。因此,可得第l棵树的预测结果为:

式(6)中,fk(xi)为第k棵树的预测结果,得到:

通过泰勒展开式,取其前三项并且移除最小项,可将目标函数转化为:

此时,将叶节点的最优值代入式(13),计算得到目标函数如下:

2.4 PSO参数优化

模型训练过程中,采用粒子群算法(Particle Swarm Optimization,PSO)对基于XGBoost 算法的预警模型进行参数优化,提高模型分类精度。粒子具有速度和位置两类属性,粒子在空间中运动的快慢用速度来表示,位置的三维向量为XGBoost 模型的三个超参数,即学习率、树深度以及最小叶节点权重。选定基于XGBoost 算法的预警模型的AUC 值作为优化目标,通过每个粒子单独追随当前搜索到的最优值来寻找全局最优。

其算法流程如下:

1)在初始化范围内,对粒子群进行随机初始化,包括随机位置和速度。

2)根据适应度函数(Fitness Function),计算每个粒子的适应值。

3)对每个粒子,将其当前适应值与其个体历史最佳位置对应的适应值作比较,如果当前的适应值更高,则用当前位置更新粒子个体的历史最优位置Pbesti;对每个粒子,将其当前适应值与历史最佳位置对应的适应值作比较,如果当前的适应值更高,则用当前位置更新粒子群的全局最优位置Gbesti;算法的迭代公式如下:

式(15)中,xi为该粒子当前的位置;vi为第i个粒子速度;c1、c2为学习因子;w为惯性权重,用于平衡搜索速度和搜索精度。w值较大,全局寻优能力强,局部寻优能力弱;反之同理。

4)若未达到终止条件,则转步骤2)。

粒子通过上述步骤对位置和速度实现迭代,逐步搜索得到最优点。

2.5 预警模型实现流程

该文所建立的预警模型算法流程如下:

1)首先,将样本集归一化处理。此外,考虑到警务数据高维稀疏特性,先去除其中缺失数据以及易导致过拟合的特征。然后通过随机森林算法对预警特征值重要性排序,并筛选得到特征数据集S′。

2)设置训练集、验证集、测试集比例为8∶1∶1。基于数据集正负样本比例通过SMOTE 过采样算法平衡样本集,生成训练集和验证集的新样本集合S′。

4)随机产生N组解,每组解为XGBoost 的三个超参数,即学习率、树的最大深度以及最小叶子节点样本权重。

5)XGBoost 模型的AUC 值作为本预警模型的适应度函数f,通过粒子群算法优化,得到最小误差fmin以及相应的最优解。

6)将测试集数据代入训练完成的预警模型加以检验,并对比其他分类算法的预测精度。

3 模型测试与分析

该文预警模型验证实验中所使用到的20 000 个人员信息样本均来源于公安系统,且针对其中的业务敏感信息进行了脱敏处理,以保证数据安全性。

3.1 模型优化与结果分析

为验证该文所建立预警模型性能,分别以该文预警模型与模型未经过特征提取、模型未经过SMOTE 处理、模型未经过PSO 粒子群算法做参数调优三种状态进行性能对比。通过ROC 曲线以及AUC 值评价该文模型算法性能,AUC 值为ROC 曲线所覆盖的区域面积,AUC 越大,分类器分类效果越好,即模型预警效果越好。上述模型ROC 曲线图如图2-4 所示。(TPR:在实际中为阳性的样本被判断为阳性的比例;FPR:在实际中是阴性的样本,但是判断为阳性的比例,该曲线如果是一条45°斜线时,证明模型拟合得特别准确)

图2 未经特征提取的预警模型ROC曲线

图3 未经SMOTE处理的预警模型ROC曲线

图4 未经过粒子群算法参数调优的预警模型ROC曲线

从图2-4 可知,该文预警模型,即经过随机森林算法、SMOTE 过采样算法、粒子群算法优化的XGBoost 模型AUC 值为0.792 0。未经过随机森林算法特征提取AUC 值为0.645 0,随机森林特征提取后AUC 值同比提高23%。未经过SMOTE 过采样算法平衡样本数据AUC 值为0.655 4,经过SMOTE 过采样处理后模型AUC值0.792 0同比提高21%。未经过粒子群算法优化的模型AUC 值为0.688 9,经过粒子群优化后的XGBoost 模型的AUC 值0.792 0 同比提高15%。因此,可得随机森林算法、SMOTE 过采样算法、粒子群算法优化均可提高预警模型精度。

3.2 预警模型精确度

由于实际警务系统数据中正负样本比例失衡严重,为便于验证预警模型在不均衡数据集上的精确度,设置几组不同正负样本比例的对照实验,比例分别为:10∶1,5∶1,2∶1,1∶1。在每组不同正负样本比例的基础上,再设置四组测试集样本比例为10%、20%、30%和40%。在以上四组测试集样本比例下测得的结果取平均值作为最终结果。

此外,为验证该文基于XGBoost 的预警模型精确度,设置了五组经典的机器学习算法进行结果对比,即梯度提升决策树GBDT(Gradient Boost Decision Tree)、支持向量机SVM(Support Vector Machine)、K-近邻分类器KNN(K-Nearest Neighbor)、高斯朴素贝叶斯分类器GNB(Gaussian Naive Bayes)、逻辑回归LR(Logistic Regression)。

各模型在不同正负样本比例下的准确度如表4。

表4 风险人员原始样本归一化数据示例

从表中可以看到,在四组不同正负样本比例的实验中,该文基于RF-SMOTE-PSO-XGBoost 算法的预警模型准确度最高。且正负样本比例越大,准确度越高。因此,该文模型在实际警务业务域中,即高度不均衡数据集下平均准确度可达到90%以上。该文基于RF-SMOTE-PSO-XGBoost 算法的预警模型构建过程中使用到的随机采样过程很大程度上提高了模型的泛化能力,使得模型在不同数据比例下均保持相对稳定的表现。

4 结论

该文建立了一种基于XGBoost 算法的预警模型。针对警务大数据样本集,采用随机森林算法进行冗余度筛选以及SMOTE 算法平衡正负样本比例。另外,通过粒子群算法优化基于XGBoost 的预警模型。通过设置对照实验,该文预警模型所采用算法均提高了模型预警精度。同时,该文基于XGBoost 的预警模型相较于大部分同类型算法计算速度快、准确性高且模型的泛化能力较好。因此,该文预警模型对今后公安系统潜在风险人员的数据挖掘研究具有一定的借鉴意义。

猜你喜欢
特征提取警务粒子
同步定位与建图特征提取和匹配算法研究
“一带一路”背景下涉外警务人才英语口语提升研究
浙江省嵊州市公安局甘霖派出所:推进警务管家+警务助理模式
湖北省武汉市公安局东西湖区分局:警务技能教官深入派出所培训实战技能
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
虚拟校园漫游中粒子特效的技术实现
一种用于抗体快速分离的嗜硫纳米粒子的制备及表征
基于曲率局部二值模式的深度图像手势特征提取
惯性权重动态调整的混沌粒子群算法
问:超对称是什么?