公安大数据分析的算法体系及适用方法

2022-07-19 08:20翟春婕
关键词:聚类公安建模

杨 杰, 翟春婕

(1.江苏省公安厅, 江苏南京 210024; 2.南京森林警察学院信息技术学院, 江苏南京 210023)

0 引言

随着网络和信息技术的高速发展,各行业生成数据的总量和增速都在加速提升,运用大数据技术整合集成数据资源,分析挖掘数据内在规律特征,服务和促进产业发展,已在很多行业领域得到广泛应用。在这样的大背景下,公安行业的大数据分析应用也是需求井喷、高速发展。近年各种分析模型及建模大赛层出不穷,涌现了一系列实战性、实用性均较强的数据分析模型,在服务公安工作升级发展中发挥了很好的作用。随着公安数据分析应用的持续深入,数据分析模型底层所用算法不断丰富,但各类算法在具体业务场景和建模过程中如何进行针对性选择、适用性如何评估、输出结果如何解释、如何在确保结果准确性的同时又易于民警理解和执行,上述相关问题已成为公安行业开展数据建模分析迫切需要研究解决的一项关键性、基础性问题。

当前,围绕大数据分析已经开发实现了多种算法[1-2],但不同类型的算法具有不同的数学特性、技术特点,其所能计算的数据类型、所能适用的业务场景存在很大差别。李志杰等[3]基于内存中直接进行数据实时流式计算的模式,分别介绍了线性模型、非线性模型、非传统等不同类型在线学习的经典算法和最新算法,并给出了典型应用场景。海沫等[4]详细分析了分布式环境下基于密度、基于划分、基于特征向量等不同类型聚类算法的实现方法,并结合应用分析评估了优缺点。林海伦等[5]介绍了开放网络的知识评估方法,包括贝叶斯估计、D-S证据理论、模糊集理论及图模型等,从实体、关系和分类扩充3个方面总结了知识融合中可用的知识扩充方法及其研究进展,并探讨了相关方法应用于网络大数据知识融合场景的实现方法。杨阳[6]基于地下钱庄案件数据,利用知识图谱中的图论方法挖掘事件线索,通过可视化呈现目标对象的社交网络关系和资金流向关系,进而挖掘隐含关系和资金交易路径。综上可见,算法虽然很多,但在具体业务场景下如何选择,促进算法与业务兼容适配,是非常值得探讨的一个问题。公安行业由于固有的业务多样性、复杂性,其数据资源具有数量大、增长快、格式异构等所有已知大数据的特征。开展公安大数据分析,更需要针对公安业务的具体应用场景和所分析数据资源的属性特点不断进行演绎归纳。如部分算法能很好地应用于已发案件的线索挖掘,但无法应用于可能发生的犯罪行为预测,而公安行业的现实需求,打击与防范已经同等重要;部分算法对数据量极其敏感,一旦数据超过一定规模,算法效率就会急剧下降,而公安行业的大数据分析,往往有着准确率与时效性并重的现实要求。因此,如何根据公安业务场景和数据属性特点选择相契合的算法,既确保分析模型的执行效率和输出结果的准确度,又让分析过程可解释、分析结果易执行,是公安行业大数据建模分析能够实用实效必须解决的一个问题。但不管是学术界还是产业界,目前相关文献对此问题的讨论都很少。具体实践中我们还发现,当前业界很多人将公安大数据分析所用算法较为局限地理解为机器学习算法。

笔者连续两年主持了省域范围内的公安大数据应用创新大赛,共收集到覆盖各个警种的大数据分析模型265个。以此265个模型为样本,针对上述现状和问题,本文系统归纳了公安大数据分析的主要业务场景,总结了公安大数据分析的常用算法,并进一步分析了常见机器学习算法的技术特点及其适用的公安业务场景,最后对公安大数据建模分析的算法选择及应用给出了建议。

1 公安数据分析的主要场景

公安行业大数据分析应用近年发展迅猛,应用场景广泛,针对不同的业务需求已经开发出了多种数据分析的模型方法。基于上述265个模型样本,归纳其所属的业务应用场景,主要有查询比对、规则判别、数值统计、预测预警等4个大类。

(1)查询比对主要是基于给定的ID值或确定的关键词,与各类数据特别是轨迹类、痕迹类动态数据进行周期执行的值比较,命中的数据记录即输出为反馈结果。

(2)规则判别主要是基于时间、地点、频次、业务特征等给定的业务规则及其初始阈值,进行条件符合性判断和筛选,同一模型中的多个业务规则可根据经验值按需设定不同的权重,符合给定阈值条件的才输出为模型分析结果,阈值条件包括不同业务规则基于权重的复合值、模型所有业务规则的符合比例等多种设置形式。

(3)数值统计主要是面向数量、占比、时空分布等给定的宏观统计类需求,进行给定条件下的规模数量的计数统计和基础性的计算统计,部分模型统计过程中引入分组计算需求,通常采用绝对数量、百分比等形式输出计数或计算结果。

(4)预测预警主要是面向已发案件的线索挖掘、可能发生的犯罪行为或案件事件等,基于概率统计或机器学习等算法,计算目标对象的风险指数或犯罪行为、事件的发生概率,对概率超过给定阈值的则输出为模型分析结果。

实际应用中,单一数据分析模型往往会覆盖多个应用场景,本文265个数据分析模型的应用场景覆盖如图1所示。

图1 参赛模型应用场景覆盖情况

从图1可以看出,连续两届公安大数据应用创新大赛,具有规则判别功能的数据分析模型占两年参赛模型总数的68.68%,具有查询比对功能的数据分析模型占两年参赛模型总数的42.64%,而具有预测预警功能的数据分析模型仅占6.42%。据此也可以看出,当前公安行业的数据分析模型,主体功能还是以规则判别和查询比对为主,而具有预测预警等新兴智能功能的模型占整体参赛模型的比例还不足一成,在当前面向实战的模型研发应用中并未成为主流。

2 公安数据分析的常用算法

归纳上述265个参赛模型底层所采用的数据分析算法,主要包括算术运算、关系代数、描述统计、概率统计、机器学习[7]等5个大类,每个大类算法的具体算符、简要描述、涉及业务场景等见表1。

表1 公安数据分析主要算法类型及适用场景

进一步分析上述265个模型底层所用的分析算法,由于单一数据分析模型通常会采用多类分析算法,模型中整体算法应用情况如图2所示。从图2可以看出,参赛模型底层采用算术运算、关系代数算法的分别占到模型总数的77.36%、74.72%,两类算法是当前公安行业开展数据分析的最常用算法,而描述统计、概率统计、机器学习3类算法随着数学难度的上升,实战中可理解性、可解释性快速下降,算法应用的广泛度也同步快速缩小。特别是机器学习算法,265个模型中仅有25个应用此类算法,且其中22个采用的为K-Means(K均值聚类)、NBC(朴素贝叶斯)[8]、SVM(支持向量机)等经典数据挖掘算法,仅有3个模型采用RF(随机森林)、CNN(卷积神经网络)等深度学习算法,其应用场景也仅为图像识别、语音识别等模式识别业务场景。

图2 参赛模型采用算法情况统计

分析总结上述5类算法与4类应用场景的对应情况,常见业务场景具体如表1。算术运算在4类场景中都普遍采用,关系代数主要应用于规则判别、查询比对两类场景,描述统计主要应用于数值统计、规则判别两类场景,概率统计主要应用于嫌疑指数、风险指数等预测预警场景,少量应用于规则判别场景,机器学习则主要应用于预测预警场景,多以固化的工具或算子等形式直接在模型中应用,针对具体业务场景的维度、参数及阈值的适配、调优等尚未实现。

综上,本文认为,公安大数据分析算法体系的基本构成主要包括算术运算、关系代数、描述统计、概率统计、机器学习等5个组成部分。建模应用过程中,算术运算、关系代数两类算法占据主流,覆盖近8成模型;描述统计次之,有超过3成的模型引用;而概率统计、机器学习两类算法,特别是机器学习算法,仅有不到1成的模型在用,且固化为工具或算子,不支持民警自主定义配置模型的具体分析维度、参数等核心内容。模型是基于算法描述的业务规律,通过算法可以将已知的经验规律具体化为规则及阈值,也可以发现未知的隐性规律并进一步具体化为规则及阈值。因此,根据模型服务的具体业务场景,针对建模过程的主要任务是已知经验规律的具体化还是未知隐性规律的发现,科学选择针对性算法,是公安大数据建模分析算法选择的有效策略。当前公安大数据分析的建模过程,主要任务还是民警已有业务经验的具体化,因此,紧扣业务场景,用好算术运算、关系代数、描述统计3类算法,仍是当前和今后一个时期公安大数据分析建模的工作重点。

3 公安数据分析机器学习算法应用方法

大数据的复杂、高维、多变使得数据挖掘技术需要不断总结、实践、更新。尽管图1、图2的数据说明当前具体公安业务场景下的大数据建模分析,采用机器学习算法的比例还较低,但机器学习算法对公安行业的大数据建模分析始终有着很强的应用价值。分析上述模型中机器学习算法应用不多的核心原因,主要是无法基于业务视角理解算法的执行逻辑,其次是中文字符型数据转换成数值数据以能够输入算法的执行运算。因此,如何基于公安业务应用场景和数据资源特点选用合适的机器学习算法,是当前公安大数据建模分析需要研究解决的另一个关键问题。结合前述4类应用场景和公安数据资源的特点,进一步探讨当前主流机器学习算法在公安行业应用的思路和方法,公安行业大数据建模分析选择具体机器学习算法必须考虑3个关键问题。

(1)机器学习算法通常只支持数值型数据的计算,对文本字符型数据特别是中文文本字符型数据无法直接进行计算,需要按照规则转换为数值型数据后才能投入分析运算,而公安机关掌握的数据资源大部分都为中文文本字符,采用机器学习算法对其进行挖掘分析时,中文文本字符必须转换为数值型数据,而转换规则往往与业务场景相关。

(2)机器学习算法通常对投入运算的数据量较为敏感,数据量不足,训练生成的模型往往精度不够,后续计算输出的分析结果往往很难直接用于实战甚至对实战形成误导;数据量过大,训练生成的模型精度足够但计算时间消耗又很可能过大,在实战要求的时间内无法完成计算输出结果,从而导致应用无法开展。

(3)每一种机器学习算法都有自己的技术特性,如聚类算法中有的算法需要预设聚类中心,有的则不需要预设聚类中心,能在聚类过程中自适应生成,但对相同规模的同类数据进行聚类运算,预设聚类中心的算法往往比不需预设聚类中心的算法时间消耗少、计算效率高。

公安行业的数据分析,对精准度、时效性都有着极高要求,两者缺一都会导致模型的失败。因此,综合考虑业务应用场景、投入计算的数据属性特点、机器学习算法的自身技术特性等3项关键要素,是公安行业开展大数据建模分析选择适用机器学习算法的最佳路径。以公安大数据建模分析最常见的群体关系网络分析为例,经过实践我们认为,若用于计算的数据包括嫌疑对象自然属性、行为轨迹等,当业务场景为判断某一对象是否属于内在特征已知的群体时,则选用常规分类算法较为高效;当业务场景为查找未掌握内在特征的未知群体时,则选用聚类算法较为有效,通过聚类运算,不仅能发现未知群体,还能进一步分解出群体行为特征。常见机器学习算法的技术特点和适用性分析见表2。

表2 公安数据分析机器学习算法适用性

机器学习算法应用过程中基于业务场景的调优是确保算法应用质效的关键,公安行业应用机器学习算法也是如此。以绝大多数算法中都会用到的距离计算为例,不同的距离计算方法具有不同的技术特性,适用于不同的数据类型,具体应用中如何选择跟业务场景更是紧密相关。以公安大数据建模分析中的相关性分析及分类、聚类分析为例,为评价待计算个体的相似性或类别归属,都需要根据具体业务应用场景和所计算数据的属性特点,采用相适用的距离计算方法。公安数据分析中机器学习算法常用距离计算方法及其适用数据类型、适用业务场景见表3。

表3 公安数据分析机器学习算法常用距离计算方法适用性

4 结语

随着公安大数据建设的持续深入,公安大数据资源已经成为支撑公安工作转型升级的基础性资源,广泛开展建模分析、深入挖掘数据价值,将越来越成为公安大数据应用最为核心的内容。在当前机器学习及人工智能快速发展的过程中,紧扣公安机关业务应用场景和数据属性特点,构建与公安行业相适应的大数据分析算法体系,确保算法应用的管用、实用,是公安大数据分析高质量可持续发展的根本保证。研究发现,算法类型上,目前公安大数据建模分析所用算法主体仍是算术运算、关系代数、描述统计等基础性算法,占整体应用的8成以上,主体功能还是以规则判别和查询比对为主,将公安数据分析算法等同于机器学习算法甚至是深度学习算法在现阶段并不合理;算法选择上,综合考虑业务应用场景、数据属性特点、算法自身技术特性等3项关键要素,科学选择并优化相应算法,避免外围合作伙伴主导的直接引入、简单套用的应用方式,确保所用算法与业务场景、数据特点匹配兼容,是实现选用算法实用实效的有效保证;应用策略上,紧扣当前公安大数据建模分析实际,用足用好算术运算、关系代数、描述统计等基础性算法,逐步深化应用概率统计算法和经典数据挖掘算法,以图像、语音等模式识别类应用为主体落地应用深度学习算法,是当前和今后一个时期,公安大数据建模分析算法选用较为实际的路径。

猜你喜欢
聚类公安建模
一种傅里叶域海量数据高速谱聚类方法
博物馆:上海公安史图片展
博物馆:上海公安史图片展
基于知识图谱的k-modes文本聚类研究
基于数据降维与聚类的车联网数据分析应用
物理建模在教与学实践中的应用
在经历中发现在探究中建模
思维建模在连续型随机变量中的应用
求距求值方程建模
基于模糊聚类和支持向量回归的成绩预测