离群动态性数据情报侦查方法研究

2021-08-24 07:08薛亚龙刘如意
山东警察学院学报 2021年2期
关键词:动态性离群侦查人员

薛亚龙,刘如意

(1.宁夏警官职业学院现代侦查技战法研究中心,宁夏 银川 750021)(2.宁夏警官职业学院成人培训处,宁夏 银川 750021)

离群动态性数据挖掘是数据领域的一个研究热点。在动态性数据频繁项目集合中,离群动态性数据往往被认为是与其他动态性数据的加权阈值、集合属性以及相邻系数等常规特征存在显著差异的数据,主要目标是从各种具有动态性、开放性、系统性特点的海量复杂动态性数据中寻找和发现存在于少量离群动态性数据中与其常规特征存在明显区别的不同数据属性和模式,从而帮助人们能够在各种离群动态性数据中挖掘与分析出具有潜在价值的有用数据。离群动态性数据挖掘与分析理论和应用技术的不断发展,促使离群动态性数据被广泛应用于数据诊断、数据挖掘、数据入侵检测等领域。针对传统情报侦查中情报价值挖掘容量低、数据收敛耗时较长且复杂以及情报整体作用性孤立和分散等突出问题,需要引入离群动态性数据情报侦查方法研究范式。这不仅可以促使侦查人员及时掌握和优化离群动态性数据排序的生存发展态势,而且能够帮助其建立有效离群动态性数据节点的权值集群,提升挖掘与利用算法的精确度,从而实现离群动态性数据情报侦查的应然价值和实然效果。

一、离群动态性数据情报侦查的内涵与属性

随着对动态性数据的挖掘与分析,那些潜在包含重要价值的离群动态性数据越来越引起人们的重视。在动态性数据在各领域被广泛应用的过程中,与常规的动态性数据比较而言,人们会更加关注那些具有差异性、例外性、不一致性的离群动态性数据。[1]在离群动态性数据挖掘与分析过程中,核心工作是在全部动态性数据中寻找和搜集不符合常规特征且具有异常属性的各种离群动态性数据,利用离群动态性数据算法挖掘与分析隐藏在其背后的各种具有内在关联的数理关系。这些离群动态性数据在全部动态性数据中既有可能属于“孤立数据”,也有可能属于“脏数据”。在实践应用过程中,尽管离群动态性数据总是被人们忽视或遗弃,但是其也往往能够给行为预测和决策提供至关重要的价值依据。显然,将离群动态性数据与传统情报侦查融合而形成新的情报侦查模式,即离群动态性数据情报侦查方法,不仅是离群动态性数据在各行业应用发展的必然趋势,而且是传统情报侦查进行内在变革和创新的本质动力需求,更是应对犯罪数据化生存发展趋势的应然选择。因此,在智慧驱动时代,应该赋予离群动态性数据情报侦查新的内涵和属性。

(一)离群动态性数据情报侦查的内涵

离群动态性数据的挖掘与分析最早被应用于统计学领域,然后逐渐开始被引入与应用到医疗卫生、金融、商业等领域。[2]随着人们对离群动态性数据内涵的研究越来越多,由于不同学者对其内涵往往是基于自身学科背景而展开研究的,从而造成人们对离群动态性数据的内涵研究存在一定的差异。就目前对离群动态性数据内涵的研究而言,最具有代表性的是学者V.Barnette在统计学领域中给出的定义。V.Barnette将离群动态性数据定义为:给定一个N个动态性数据点或对象的集合以及预期离群动态性数据的数目K,任务目标是发现与剩余的动态性数据相比是显著相异的、异常的或者不一致的头K个对象。[3]显然,离群动态性数据挖掘与分析的主要任务包括预设离群动态性数据在整个动态性数据频繁项目集合中的数量阈值和采取高效的算法挖掘各种不同的离群动态性数据两个方面。从离群动态性数据挖掘的研究背景而言,其产生的原因主要包括三个方面:第一,由动态性数据自身固有变量引起。整体动态性数据在观测值预置算法过程中有时由于自身固有变量的变化而产生离群动态性数据。这种离群动态性数据的产生不仅具有自然性和不可控性,而且能够从侧面反映和体现整体动态性数据的加权阈值、相邻系数等常规特征属性。第二,由算法挖掘方法错误引起。不同类型和格式的动态性数据应该采取与之相适应的挖掘算法,如果采取与其不相匹配的算法进行挖掘,那么就会造成部分所得的算法挖掘结果阈值衍变成为离群动态性数据。第三,由分析执行错误引起。在对各种动态性数据经过算法挖掘而准备分析执行的时候,亦可能受到分析执行规则、流程模型、指标体系评估等复杂动态情势的影响和制约。如果在这些复杂动态情势中存在不规范、不合理、不科学等错误的分析执行时,也会导致部分离群动态性数据的产生。结合离群动态性数据挖掘的属性和情报侦查的内在价值需求,笔者认为,离群动态性数据情报侦查的内涵为:侦查人员在海量复杂的动态性数据库或频繁项目数据集合中提前预设各种离群动态性数据的数目加权阈值,然后采取霍金斯离群动态性数据算法、LOF离群动态性数据算法、时空维度离群动态性算法等离群动态性数据算法寻找和发现隐藏在其中具有差异性、例外性、不一致性等特征的各种离群动态性数据,进而帮助侦查人员深入挖掘分析出其与案件侦查情势之间内在相关的数理关系和情报价值,从而能够揭露犯罪和证实犯罪的一种新型动态性数据情报侦查方法。

根据离群动态性数据情报侦查应用价值的差异性,可以将离群动态性数据分为以下三种主要类型:第一,应剔除的离群动态性数据。侦查人员在离群动态性数据情报侦查应用过程中,可能由于非科学合理构建犯罪行为与非犯罪行为数据库或离群动态性数据情报侦查流程模型等执行错误而产生离群动态性数据。各种结构化数据、半结构化数据、非结构化数据以及异构化数据等动态性数据源的猛增,必然给离群动态性数据情报的挖掘与分析带来难度,应用不当就会导致出现侦查错误或侦查僵局。如果出现诸如冗余数据等离群动态性数据,那么就应该立即将其剔除,否则势必影响和制约离群动态性数据情报侦查应用的实际效果。第二,应特别处理的离群动态性数据。有些离群动态性数据并不是由侦查人员的执行错误而导致出现,而是由动态性数据内在本质的变异性所产生的结果。对于该类离群动态性数据,不能机械地予以直接剔除,否则可能会导致一些重要的侦查情报数据被遗漏或被过滤。科学、合理的方法是根据不同离群动态性数据出现的概率或频率对其阈值进行加权,最大限度降低对离群动态性数据情报挖掘与分析应用的不利影响。第三,应重视的离群动态性数据。在离群动态性数据情报挖掘、应用过程中,部分离群动态性数据具有重要价值和稀有的加权属性。例如,在案件情报挖掘过程中发现的涉嫌犯罪的聚类数据、关联数据、链路数据以及区块链数据等离群动态性数据,都属于应重视的离群动态性数据范畴。[4]此外,依据不同的标准还可以对离群动态性数据进行不同的分类。如依据数据范围的不同,可以分为局部性离群动态性数据和全局性离群动态性数据;依据数据变量的不同,可以分为多变量的离群动态性数据和单变量的离群动态性数据等。[5]

诚然,根据犯罪情势数据化产生和发展的不同变化态势,侦查人员应该作出与侦查情势相符合或具有一致性的离群动态性数据分类,从而为实现离群动态性数据情报挖掘与分析应用奠定良好的基础。

(二)离群动态性数据情报侦查的属性

离群动态性数据贯穿于情报侦查的全过程,是离群动态性数据情报挖掘与分析应用最为显著的特征。离群动态性数据与情报侦查过程的互相融合和衔接,不仅涵盖了数据网络节点分析、数据锚点预测、数据热点矩阵以及数据时空风险与预测等传统情报侦查方法,还包含了霍金斯离群动态性群数据算法、LOF离群动态性数据算法、时空维度离群动态性算法等典型离群动态性数据算法。所以,与传统实体空间的情报侦查相比,智慧驱动时代的离群动态性数据情报侦查有其显著的独特属性。

1.离群动态性数据情报侦查的分布序列属性

为了实现离群动态性数据情报侦查的应然价值,首先,需要构建离群动态性数据情报侦查的分布式数据存储仓库模型,采用不同离群动态性数据算法对结构化、非结构化、半结构化以及异构化等类型的离群动态性数据进行数据清洗和预处理。其次,构建离群动态性数据情报侦查的加权优化阈值和离群特征预设阈值模型,进行离群动态性数据情报侦查的自适应离群算法应用检测;同时,进一步分析离群动态性数据情报侦查的离群空间调度设计流程模型,采取分布式网络动态性数据挖掘等离群动态性数据算法促使各种不同的离群动态性数据能够有效地互相融合,从而得到离群动态性数据情报侦查分布序列的加权阈值系数。最后,通过对离群动态性数据情报侦查分布序列的特征分析,构建离群动态性数据情报侦查中犯罪行为与非犯罪行为的离群规则,从而为采取各种离群动态性数据情报侦查的应用算法提供可行的不同离群特征匹配模型。这样,一方面,分布序列数据模型贯穿于离群动态性数据情报侦查的全过程;另一方面,离群动态性数据情报侦查的应然价值和实然效果便有了分布序列数据模型的基础和前提。因此,离群动态性数据情报侦查具有典型的分布序列属性。

2.离群动态性数据情报侦查的混沌属性

离群动态性数据情报侦查源不仅包括算数离群数据、数组离群数据、索引离群数据等常规的离群数据,还包括参数离群数据、匹配离群数据以及转换离群数据等非常规离群数据。显然,离群数据类型或格式方式的多样性和复杂性使其必然具有混沌属性。[6]混沌属性作为离群动态性数据情报侦查的属性之一,能够满足离群动态性数据加权阈值与情报侦查应用价值之间的关联性和聚类性,且对离群动态性数据情报的挖掘与分析应用具有数据收敛速度快、情报价值挖掘度高以及漏检误检率低等突出作用。侦查人员依次采取数据清洗、数据预处理、数据仓库构建等技术方法,寻找和发现具有混沌属性的离群动态性数据情报侦查源,从而挖掘与分析隐藏在其内部的、与犯罪情势具有关联性的各种数理关系。同时,侦查人员通过对离群动态性数据情报侦查中离群动态性数据产生概率和频率的分析,构建离群动态性数据情报侦查的随机离群动态性数据序列模型,然后对具有明显混沌属性的不同离群动态性数据进行搜集和分类,促使侦查人员能够及时对涉案离群动态性数据中的数据节点、数据路径、数据距离等展开链路分析和预测。所以,在离群动态性数据情报侦查过程中,侦查人员能够利用其混沌属性提升离群动态性数据挖掘与分析的效能,从而全面提升离群动态性数据情报侦查应用的客观性和准确性。

3.离群动态性数据情报侦查的异常属性

离群动态性数据贯穿于离群动态性数据情报侦查的全过程,情报挖掘与分析的关键是掌握和应用其中的模型构建、关联算法和数据变化趋势,其主要任务包括对涉案离群动态性数据的关联性分析、特征提取、模式识别以及异常检测等。然而,侦查人员在对离群动态性数据的加权阈值进行预设和识别时,往往会遇到正常的数据被模仿,离群动态性数据的阈值不断变化,标记性离群动态性数据难以获取,离群动态性数据与正常数据存在高度相似性等突出问题,从而致使离群动态性数据情报侦查具有显著的异常属性。就离群动态性数据情报侦查异常属性的构成要素而言,可以将其分为拓扑异常属性和混合异常属性两类。

第一,离群动态性数据情报侦查的拓扑异常属性。在离群动态性数据情报侦查的离群动态性数据源中,存在诸如原始动态性数据拓扑结构、抽象型动态性数据拓扑结构以及时空动态性数据拓扑结构等。这些不同类型或格式的拓扑异常结构属性可以用不同颜色对离群动态性数据中的数据节点、数据路径、数据距离等进行标识,将其客观、真实地反映在离群动态性数据情报侦查的指标体系和流程模型构建之中,从而有利于侦查人员根据不同类型或格式的拓扑异常离群动态性数据而采取与之相对应的离群动态性数据情报侦查应用算法。

第二,离群动态性数据情报侦查的混合异常属性。侦查人员在对各种离群动态性数据进行数据清洗、数据预处理、数据解释等过程中,不仅结合了霍金斯离群动态性数据算法、LOF离群动态性数据算法、时空维度离群动态性算法等多种离群动态性数据算法来挖掘各种具有潜在情报价值的关联数理关系,还利用OCCRF模型来解析不同离群动态性数据拓扑结构的特征和属性。诚然,不管是离群动态性数据情报侦查中离群动态性数据类型或格式的多样性,还是各种离群动态性数据算法或模型的动态性和开放性,都突出了离群动态性数据情报侦查过程的混合异常属性。因此,就离群动态性数据情报侦查的异常属性而言,一方面,有利于侦查人员快速、准确地寻找和发现具有拓扑异常或混合异常属性的不同离群动态性数据;另一方面,有利于其构建与数据化犯罪情势发展态势相适应的离群动态性数据情报侦查指标体系和流程模型,从而实现离群动态性数据情报侦查决策和预测的高效性、准确性。

二、离群动态性数据情报侦查的指标体系

常规离群动态性数据挖掘与分析涉及评价指标体系的两个主要方面是如何度量离群动态性数据和如何有效发现离群动态性数据。[7]就离群动态性数据情报侦查应用的应然价值和实然效果而言,侦查人员的核心任务就是从结构化数据、非结构化数据、半结构化数据、异构化数据等不同动态性数据源中将与涉案犯罪情势具有关联性的各种离群动态性数据快速、准确地挖掘出来,并加以分析。这需要首先解决如何度量离群动态性数据的前提问题,然后解决如何才能够及时、有效地发现不同离群动态性数据的问题,最后才是考虑和选择科学、合理的离群动态性数据情报侦查应用算法的问题。基于此,离群动态性数据情报侦查的指标体系应包括以下三个部分:确立离群动态性数据的度量标准,建立监督类型的离群动态性数据,选择符合离群动态性数据属性的应用算法。

(一)确立离群动态性数据的度量标准

离群动态性数据的度量标准要根据侦查人员的情报侦查经验和数据挖掘分析应用而预设具体的度量指标系数。由于离群动态性数据的产生具有明显的不确定性,侦查人员通过不同数据算法所挖掘与分析出来的也仅仅是“疑似”的离群动态性数据。这些“疑似”的离群动态性数据是否与犯罪案件情势的客观实际相符合,应该由负责情报侦查的具体侦查人员进行验证和决定,而不是依据各种离群动态性数据算法进行解释和说明。在离群动态性数据情报侦查应用过程中,采取常规离群动态性数据应用算法寻找和发现的往往属于少量、不规则的离群动态性数据,这与离群动态性数据情报侦查应用的应然价值和实然效果不相符合。例如,侦查人员在确立离群动态性数据情报侦查的度量标准流程中,对具有共性特征的离群动态性数据可以采取合并同类项的度量标准,对具有接近或相似特征的离群动态性数据可以采取相似度度量标准,对具有连续加权阈值的离群动态性数据可以采取连续数值的度量标准,对具有有序离群、二元离群属性以及多元离群属性的则可以采取混合离群的度量标准。因而,为了提高离群动态性数据情报侦查应用的客观性和准确性,侦查人员应该根据案件发展态势而确立与之相适应的离群动态性数据度量标准。

(二)建立监督类型的离群动态性数据

在离群动态性数据情报侦查应用过程中,从涉案离群动态性数据是否具有正常或异常的类标号以及对类标号的挖掘与分析程度而言,可以将离群动态性数据分为有监督类型的离群动态性数据、无监督类型的离群动态性数据以及半监督类型的离群动态性数据。例如,针对涉案的犯罪主体数据、犯罪时空数据以及犯罪交易数据等具有类别化的离群动态性数据,可以建立有监督类型的离群动态性数据;涉案没有诸如上述类别化的离群动态性数据,可以建立无监督类型的离群动态性数据;如果有常规的类别化离群动态性数据,但与涉案犯罪情势没有内在关联,则建立无监督类型的离群动态性数据。就建立监督类型的离群动态性数据的应然目的而言,监督类型的离群动态性数据本质上是建立在对各种离群动态性数据的分类模型之上,然后对该类离群动态性数据进行算法模型构建,进而挖掘、分析出其与案件情势之间存在关联性的潜在数理关系。无监督类型和半监督类型的离群动态性数据,则属于没有类别化或即使有但无关联性的不同离群动态性数据模型。诚然,侦查人员应该在构建离群动态性数据挖掘规则和数据仓库模型之前根据不同类别的离群动态性数据而建立不同监督类型的离群动态性数据。这不仅是进行离群动态性数据情报侦查的基础和前提条件,而且是采取离群动态性数据情报侦查应用算法的内在本质需求。

(三)选择符合离群动态性数据属性的应用算法

选择科学、合理、有效的离群动态性数据应用算法,不仅要有利于侦查人员实现情报侦查的应然价值,而且要符合离群动态性数据内在属性的本质要求。涉案犯罪情势的离群动态性数据属性既包括具有类别化分类属性的离群动态性属性,又包括具有加权阈值连续属性的离群动态性数据,具有鲜明的混合属性特征。从离群动态性数据情报侦查所采取的技术算法而言,典型的离群动态性数据算法主要包括基于数据聚类、数据密度、数据距离、数据统计等方法。例如,基于数据聚类的离群动态性数据情报侦查算法主要是先将各种离群动态性数据进行数据分簇预处理,让各分簇内不同离群动态性数据的数据节点、数据路径、数据距离等加权阈值系数能够更加相似或接近,然后对数据聚类后不同簇类内的离群动态性数据进行挖掘与分析。显然,在基于数据聚类的离群动态性数据情报侦查算法应用中,有部分适用于具有类别化分类属性的离群动态性数据,也有部分适用于涉及犯罪交易、犯罪嫌疑人、犯罪行为等加权阈值连续属性的离群动态性数据。而基于数据密度和数据距离的离群动态性数据情报侦查应用算法都比较适合于大部分数据加权阈值具有连续属性的离群动态性数据。这两种应用算法具有数据收敛速度快、数据挖掘准确度高等优势,但是其应用算法的过程则具有耗时较长、关联性不高、复杂性较强等特点。另外,基于数据统计的离群动态性数据应用算法主要适用于具有类别化分类属性的离群动态性数据,如涉案离群动态性数据具有泊松分布、正态分布等类别化分类属性,该应用算法以统计学为建模核心且具有很强的普遍性和实用性。所以,离群动态性数据情报侦查的指标体系在确立离群动态性数据的度量标准和建立监督类型的离群动态性数据之后,侦查人员应该根据涉案犯罪情势属性不同的离群动态性数据的情况选择与之相符合的不同离群动态性数据情报侦查的应用算法。

三、离群动态性数据情报侦查的流程模型构建

在离群动态性数据情报侦查应用过程中,侦查人员会面对各种结构化数据、非结构化数据、半结构化数据以及异构化数据等离群动态性数据。这些不同类型的数据构成了离群动态性数据情报侦查源,从而为侦查人员开展离群动态性数据情报侦查预测和决策提供了客观、准确的数据支撑。如果这些涉案离群动态性数据不能够及时、有效地被侦查人员所挖掘与分析,就有可能出现不利于案件情报侦查活动展开的“数据恐慌”,导致发生情报侦查错误,甚至陷入情报侦查僵局。基于此,需要提出离群动态性数据情报侦查的流程模型构建。结合离群动态性数据的属性范畴和情报侦查价值实现的途径范式,笔者认为,应该将离群动态性数据情报侦查的流程模型构建分为离群动态性数据采集预处理模块、离群动态性数据挖掘分析模块、离群动态性数据模式更新模块以及离群动态性数据情报侦查决策模块四部分(见图1)。

图1 离群动态性数据情报侦查的流程模型图

(一)离群动态性数据采集预处理模块

离群动态性数据采集预处理模块的主要任务是完成对不同离群动态性数据情报侦查源的处理。在对各种离群动态性数据情报侦查源进行有效的数据采集、数据分类、数据清洗等数据技术处理之后,该程序就会及时对被采集预处理后的部分离群动态性数据进行数据仓库构建和关联规则的平台设计。然后,侦查人员根据数据节点、数据路径、数据距离等对数据仓库构建后的离群动态性数据进行加权阈值系数的契合度排序处理,使其在离群动态性数据情报侦查应用算法中成为关键性组成部分。同时,在离群动态性数据采集预处理模块的流程中,侦查人员还可以采取Bro数据检测技术方法对该模块中的离群动态性数据进行预处理。这不仅有利于在离群动态性数据采集预处理模块流程中实现对各种离群动态性数据流的过滤和重组,而且有利于产生和形成与涉案犯罪情势具有特定内在数理关系的关联规则,从而帮助侦查人员全面实现提升离群动态性数据情报侦查应用流程的质效。

(二)离群动态性数据挖掘分析模块

离群动态性数据挖掘分析模块的主要任务就是采取不同的离群动态性数据情报侦查算法,对经过采集预处理的各种离群动态性数据仓库进行深入搜索和挖掘。数据仓库中不仅存储着海量复杂的离群动态性数据,而且各个离群动态性数据之间的数据节点、数据距离、数据路径等加权阈值属性等互不相同且差异性较大。如果侦查人员采用传统常规的离群动态性数据算法对其进行挖掘与分析,那么所挖掘与分析出来的各种内在数理关系的关联性则属于弱相关,严重制约或影响了离群动态性数据情报侦查预测和决策的准确性。诚然,为了实现离群动态性数据挖掘分析模块的应然流程价值,就必须变革传统常规离群动态性数据挖掘分析技术方法。例如,在离群动态性数据挖掘分析模块应用中,侦查人员可以采取具有轴属性和频繁数据模式的IREP算法。IREP算法不仅能够对不同属性的离群动态性数据进行有效的类别化分类处理,而且能够通过构建数据规则而挖掘与分析出各个离群动态性数据在涉案犯罪情势中的关联价值大小。

在离群动态性数据挖掘分析模块流程中最为关键性的问题就是对不同离群动态性数据的特征属性进行选择,侦查人员在对其选择时可以依据已构建的数据仓库和形成的关联规则进行挖掘与分析。根据离群动态性数据之间的不同属性特征,侦查人员可以采取以下具有典型代表性的挖掘分析算法:第一,关联挖掘分析算法。该算法主要是根据侦查人员在已构建的数据仓库中存储的不同离群动态性数据属性的差异性,利用各个离群动态性数据与涉嫌犯罪情势之间存在的内在关联数理关系进行挖掘分析。第二,分类挖掘分析算法。侦查人员首先将经过采集预处理后的所有离群动态性数据依据不同类别进行分类映射,然后采取数据分类器的模式使其形成输出结果,最后建立离群动态性数据的分类规则库和分类决策树,从而实现离群动态性数据挖掘分析模块流程的价值目的。第三,序列挖掘分析算法。侦查人员采取该算法能够对涉嫌犯罪情势中频繁出现且具有序列性的犯罪时空数据、犯罪情节数据等离群动态性数据进行检索和统计,然后将其作为侦查人员进行离群动态性数据挖掘分析时的模型和规则。

(三)离群动态性数据模式更新模块

该模块流程应用的核心功能是,侦查人员根据涉案犯罪情势发展变化的不同态势而对离群动态性数据挖掘与分析应用算法给予及时的修正和更新,从而确保离群动态性数据情报侦查预测和决策的高效性、精确性。就离群动态性数据情报侦查中的不同离群动态性数据源而言,其具有动态性、开放性、系统性、离散性等混沌特征,造成所搜集和获取的各种离群动态性数据在不同流程应用阶段也呈现出不同的属性。诚然,现有的各种离群动态性数据情报侦查应用算法也并不是完全合适或一成不变的,这就需要侦查人员随时根据数据化犯罪情势变化发展的不同态势而发现和寻找新的离群动态性数据情报侦查应用算法,进而保障离群动态性数据情报侦查应用算法的新颖性和适应性。所以,在离群动态性数据情报侦查应用过程中,侦查人员除了需要对不同离群动态性数据进行挖掘与分析之外,还需要时刻对离群动态性数据的模式进行修正和更新。这也是实现离群动态性数据情报侦查应然价值和实际效果的内在本质要求。

(四)离群动态性数据情报侦查决策模块

离群动态性数据情报侦查决策模块的主要任务是将当前已统计和存储的各种犯罪行为和非犯罪行为规则与数据仓库中数据化生存的犯罪情势进行比对和分析,并对与涉案犯罪情势具有内在关联数理关系的不同离群动态性数据进行挖掘与判断,从而为离群动态性数据情报侦查的预测和决策提供数据情报的支持和保障。在离群动态性数据情报侦查决策模块应用中,侦查人员可以根据离群动态性数据挖掘分析模块中类别化分类结果对其进行侦查决策的相似度匹配检验。一般而言,在离群动态性数据情报侦查决策模块流程中,往往采取0-1之间的数据加权阈值系数来表示其决策准确性和高效性的检测匹配度。如果离群动态性数据情报侦查决策的相似度匹配检测系数越高,就说明离群动态性数据情报侦查决策越准确和高效;反之,则说明离群动态性数据情报侦查决策的准确性和高效性越低。

四、离群动态性数据情报侦查的应用算法

在离群动态性数据情报侦查应用过程中,各种不同类型和属性的离群动态性数据通过有线或无线形式进行传输与控制,其与涉嫌犯罪情势之间内在的关联数理关系越来越受到侦查人员的关注和重视。对离群动态性数据进行准确挖掘和分析,确定其关联规则的数据阈值属性,是实现离群动态性数据情报侦查应然价值和实然效果的必然要求。离群动态性数据情报侦查应用算法通过对涉案离群动态性数据进行数据时序的统计与分析,结合各离群动态性数据的属性特征和情报侦查的价值需求,采取霍金斯离群动态性数据算法、LOF离群动态性数据算法、时空维度离群动态性算法等离群动态性数据算法挖掘与分析其与涉案犯罪情势之间内在的各种关联数理关系,从而帮助侦查人员提高离群动态性数据情报侦查预测和决策的高效性、准确性。因此,在智慧驱动时代,应该赋予离群动态性数据情报侦查应用新的方法。这不仅是将离群动态性数据与情报侦查进行结合和融合的应然要求,还是打击和预防数据化犯罪的实然需求。

(一)霍金斯离群动态性数据算法

霍金斯离群动态性数据算法是一种基于神经网络的BP神经网络的算法。其算法的原理是,挖掘分析离群动态性数据最优的连接加权阈值集群,得到涉案关联数理关系的挖掘结果后将其直接存储到预设的离群动态性数据关联聚类区域之中,从而为离群动态性数据情报侦查的预测和决策提供数据支持和保障。在霍金斯离群动态性数据算法应用过程中,侦查人员需要提前设置涉案离群动态性数据加权阈值集群的数据点,该数据点的阈值范围可设在(-1-1)区间,可以通过修正加权阈值的区间梯度来统计分析涉案不同离群动态性数据的数据节点、数据路径等数据结构,从而实现降低离群动态性数据情报侦查预测和决策误差率、漏检率等应用效果。同时,预设涉案离群动态性数据的维度阈值为M,霍金斯离群动态性数据算法潜在隐含的关联数据节点为K个,而该算法中离群动态性数据的关联聚类区间阈值为C,那么霍金斯离群动态性数据算法在离群动态性数据情报侦查中的应用即可表示为:C1,C2,C3,...,CK。根据涉案离群动态性数据的不同属性特征,一方面,侦查人员可以对处于离群动态性数据关联聚类区的各种离群动态性数据进行统计和训练,促使其算法中输入层和输出层的离群动态性数据能够与挖掘分析的结果形成数据的互相映射关系;另一方面,对霍金斯离群动态性数据算法模型中处于“休眠”状态、隐含的离群动态性数据进行激活,使其将输入层离群动态性数据的数据连接加强阈值系数自动转换为一个非线性的离群动态性数据驱动函数。显然,霍金斯离群动态性数据算法对传统实体的离群动态性数据算法在数据序列挖掘方面给予了优化和重构,使得离群动态性数据情报侦查所得到的关联数理关系更加精确化(见图2)。

图2 霍金斯离群动态性数据算法原理

根据离群动态性数据情报侦查预测和决策的应用要求,侦查人员可以将所获得的挖掘分析结果作数据降维、剔除无用属性与全局归一化等数据处理,将霍金斯离群动态性数据算法处理后输出与涉案犯罪情势内在关联的数理关系关联度数据,作为离群动态性数据情报侦查预测和决策的依据。侦查人员按照所获不同关联数理关系的关联度顺序系数,及时、有效激活霍金斯离群动态性数据算法中输出层和隐藏层的离群动态性数据连接节点,使霍金斯离群动态性数据算法的输入层更加快速和准确,从而最大限度地获取离群动态性数据的最优连接加权阈值集群,最终帮助侦查人员全面提升离群动态性数据情报侦查应用的分类效能和挖掘精度。

(二)LOF离群动态性数据算法

LOF算法通过计算数据对象的局部偏离因子(LOF)来评估一个对象可能是离群点的程度,即评介该对象相对于周围领域的孤立程度。[8]LOF离群动态性数据算法属于一种基于数据密度离群点的应用算法,主要任务是统计与归纳各种离群动态性数据的局部离群加权系数,从而实现对不同离群动态性数据中关联数理关系偏离相似度的挖掘与分析。在LOF离群动态性数据算法运用过程中,侦查人员根据涉案各种离群动态性数据情报侦查源而预设离群动态性数据的最少离群相邻数K和最近相邻数据距离来确定离群动态性数据的数据领域,通过对数据仓库中离群动态性数据的数据K距离、可达数据密度以及可达数据距离等的运算,采用不同离群动态性数据的平均可达密度和其自身可达数据密度之间的对比系数来表示LOF,然后依据LOF运算所得符合预设阈值的N个动态性数据即为离群动态性数据对象。显然,LOF离群动态性数据算法具有对离群动态性数据收敛速度快和数据密度离群点聚类速度快等显著的高效性特征。

为了实现离群动态性数据情报侦查的应然价值,提高其实际应用效果,根据涉案离群动态性数据不同数据密度离群点的可达距离范畴,LOF离群动态性数据算法的具体步骤如下:

第一步,检查离群动态性数据的访问对象。侦查人员首先要检查涉案离群动态性数据情报侦查源中有没有被访问的离群动态性数据对象P,目的是排查其是否已被归入某个数据关联聚类区域或被标识为离群动态性数据。重点检查该离群动态性数据的数据领域Nε(P),如果Nε(P)内包含的离群动态性数据数目等于或大于Minpts,那么就需要建立新的离群动态性数据关联聚类区域C,并将离群动态性数据对象P和其相邻的离群动态性数据都并入到该关联聚类区域C中。

第二步,分析离群动态性数据的数据领域Nε(P)。在经过第一步检查离群动态性数据的访问对象之后,侦查人员需要进一步寻找和发现在离群动态性数据关联聚类区域C内是否没有被LOF离群动态性数据算法所应用的离群动态性数据对象Q。如果数据领域Nε(P)内的离群动态性数据Q没有被LOF离群动态性数据算法所挖掘与分析,那么就需要将该数据领域Nε(P)内的所有离群动态性数据Q重新进行数据清洗和数据仓库构建,使其能够快速、有效地进入到LOF离群动态性数据算法的流程之中。

第三步,离群动态性数据检验。为了全面提升LOF离群动态性数据算法的高效性和关联聚类性,侦查人员需要重复第一步到第二步的算法流程,直到所有关联聚类区域C内的离群动态性数据均被挖掘与分析为止。

第四步,应用被标识的离群动态性数据。使用该算法对离群动态性数据进行检验的主要目的是,让所有的涉案离群动态性数据都能够被无漏缺地访问过,促使与涉案犯罪情势具有内在关联数理关系的各种离群动态性数据能够被准确、高效地标识和挖掘分析。诚然,在离群动态性数据情报侦查应用过程中,LOF离群动态性数据算法的实际效果主要受到离群动态性数据参数ε和离群动态性数据的数目Minpts两者的影响和制约。在离群动态性数据数目Minpts相同的情况下,选择的离群动态性数据参数ε越小,那么离群动态性数据的关联聚类密度就越高。但是,如果选择的离群动态性数据参数ε过小,就会导致大量动态性数据被误访问和标识为离群动态性数据;如果选择的离群动态性数据参数ε过大,则会造成部分离群动态性数据被分类划归于其他离群动态性数据的关联聚类区域内。[9]同理,在离群动态性数据参数ε相同的情况下,选择的离群动态性数据数目Minpts越大,离群动态性数据关联聚类的密度就越高,但过大的离群动态性数据数目Minpts会导致部分含有离群动态性数据的关联聚类区域被漏检,容易将正常的各种动态性数据被误认为属于离群动态性数据;反之,会造成将某些离群动态性数据分类划归于不同的离群动态性数据关联区域。所以,在LOF离群动态性数据算法应用的具体过程中,侦查人员应该根据涉案犯罪情势变化发展的不同态势而选择科学、合理的离群动态性数据参数ε和离群动态性数据的数目Minpts,以避免出现选择数据过大或过小现象的出现。这不仅有利于降低LOF离群动态性数据算法的漏检率和误检率,还有利于全面提高离群动态性数据情报侦查应用结果的准确性和客观性。

(三)时空维度离群动态性数据算法

空间离群值是指非时空值与其加权相邻存在明显异常的阈值,这表明与其存在异常的阈值是个体范畴而不是总体范畴。显然,从空间离群值的概念可以拓展出时空离群值的内涵,即是指时空个体与加权相邻的时间和空间存在显著异常的非时空阈值。[10]在时空维度离群动态性数据算法应用过程中,侦查人员先通过对涉案离群动态性数据中各个数据节点、数据路径、数据距离以及其与加权相邻数据之间的关系进行预设阈值,利用该预设阈值对非时空阈值的离群动态性数据从时空维度给予限制。从时空维度范畴而言,由于涉案时空离群动态性数据大部分主要以面板数据的格式存在,面板数据即是在涉嫌犯罪时空离群动态性数据序列上获取多个截面,而在这些截面上所寻找和选择的样本离群动态性数据检测值就会自动完成离群动态性数据情报侦查的数据仓库构建。虽然侦查人员所获取的面板数据频繁项目集可能存在离群动态性数据个体之间的差异性,但是单一的时间维度或空间维度的离群动态性数据并不能准确、客观地反映其内在本质的差异阈值。侦查人员通过对面板数据的深入挖掘与分析,能够获取与涉案犯罪情势之间具有更多共性、动态性、双层性的情报价值。

在离群动态性数据情报侦查应用过程中,结合时空维度离群动态性数据的数据流属性和涉案犯罪情势发展变化的不同态势,可以将时空维度离群动态性数据算法具体分为以下几个步骤:

第一步,挖掘获取滑动窗口的离群动态性数据阈值。根据涉案离群动态性数据时空维度的属性,侦查人员可以采用具有时空维度特征的类别化分类聚类技术方法,通过对其与加权相邻数据之间关系阈值的预设与挖掘,统计并获取该涉案面板数据频繁项目集的数据聚类。基于此,侦查人员依据本次数据聚类结果可以挖掘获取滑动窗口的离群动态性数据阈值。

第二步,利用一次指数平滑算法进行离群动态性数据的递推。根据时空维度离群动态性数据算法的价值优势和实现要求,可以将一次指数平滑算法的递推关系表示为:Si=AXi+(1-A)Si-1。其中,A表示数据仓库中离群动态性数据的平滑系数,Si表示之前i个离群动态性数据的平滑阈值,且取值区域为[0,1]。A越接近1,说明平滑后的离群动态性数据阈值越接近当前的离群动态性数据平滑阈值,表明该离群动态性数据呈现出不平滑的状态;反之,A越接近0,说明平滑后的离群动态性数据阈值越接近前i个离群动态性数据平滑阈值,该离群动态性数据呈现出平滑的状态。为了提升时空维度离群动态性数据算法的准确性和精确度,侦查人员可以反复利用该一次指数平滑算法对涉案的不同离群动态性数据进行递推预测。

第三步,利用二次指数平滑算法进行趋势预测。侦查人员运用一次指数平滑算法虽然能够记录和存储当前最后一个离群动态性数据i的数据坐标,但是并不能反映和揭示该离群动态性数据变化发展的时空维度生存态势。然而,二次指数平滑算法不仅包含了一次指数平滑算法对离群动态性数据的递推函数关系,而且能够帮助侦查人员通过添加新的函数变量T来对涉案离群动态性数据进行趋势预测。其中,二次指数平滑算法表示为Si=AXi+(1-A)(Si-1+Ti-1),而二次指数平滑算法的趋势预测公式则为Xi+H=Si+HTi。显然,二次指数平滑算法对涉案离群动态性数据的趋势预测呈现为倾斜的一条直线。

第四步,通过三次指数平滑算法实现情报侦查预测和决策。三次指数平滑算法在经过二次指数平滑算法之后保留了涉案离群动态性数据的季节性情报信息,使其具有对离群动态性数据进行时空维度的季节性预测的功能。侦查人员采取累加或累乘的三次指数平滑算法之后,就会挖掘和获取到与涉案犯罪情势有关的各种关联数理关系,直接将其应用到离群动态性数据情报侦查的预测和决策过程中即可。因此,在时空维度离群动态性数据算法的应用过程中,侦查人员不仅能够通过滑动窗口模型快速、有效地对涉案离群动态性数据进行数据清洗和数据仓库构建,而且能够对其展开时空维度的季节性趋势预测,为离群动态性数据情报侦查的预测和决策提供高效、客观的数据支持和保障。

(四)模糊孤立森林离群动态性数据算法

根据涉案离群动态性数据异常属性的差异性,引入模糊孤立森林的离群动态性数据算法。侦查人员可以在传统孤立森林算法的基础上引入离群动态性数据的隶属度权重系数,从而利用模糊综合评价的方法对涉案不同离群动态性数据进行综合的挖掘与分析应用,即形成具有隶属度权重系数和模糊属性的模糊孤立森林离群动态性数据算法。简言之,模糊孤立森林离群动态性数据算法主要是通过数据集成、数据仓库存储部分具有典型代表性的离群动态性数据并对其分别进行建树和构建孤立森林模型,对每个离群动态性数据的挖掘与分析结果采取隶属度权重系数的审查和判断,再利用模糊矩阵对审查判断后的离群动态性数据进行模糊运算并获取最终的应用检验结果。[11]结合离群动态性数据情报侦查的指标体系和流程模型构建,模糊孤立森林离群动态性数据算法可采取以下具体步骤:

第一步,发现和确定离群动态性数据情报侦查的频繁项目集合U。其中,Ui表示涉案离群动态性数据的簇类,m表示离群动态性数据的项目个数,即离群动态性数据情报侦查的频繁项目集合为U=(U1,U2,U3,...,Um)。

第二步,确定离群动态性数据情报侦查的关联规则集合V。Vi表示可能存在与涉案犯罪情势具有各种数理关系的关联规则,n表示离群动态性数据情报侦查构建关联规则的数目,而离群动态性数据情报侦查的关联规则集合则表示为V=(V1,V2,V3,...,Vn)。

第三步,单个离群动态性数据的挖掘分析。为了提升离群动态性数据情报侦查价值挖掘的高容量目标,侦查人员在构建离群动态性数据情报侦查频繁项目数据集仓库之后,就需要对其仓库中每个离群动态性数据采取Ui的定量关联挖掘分析,从而帮助侦查人员研判其在全部离群动态性数据关联规则集合中的隶属度关系和作用。

第四步,分析离群动态性数据的模糊数据隶属度加权系数。由于不同的离群动态性数据在离群动态性数据情报侦查中的价值作用是互不相同的,故需要侦查人员对每个离群动态性数据均进行数据隶属度加权系数的分析和归纳。同时,形成一个客观、准确的模糊离群动态性数据隶属度集合,从而通过孤立森林离群动态性数据算法运算和挖掘不同离群动态性数据的离群阈值。

第五步,离群动态性数据情报侦查的价值指向分析。利用离群动态性数据的量子算法将上述离群动态性数据情报侦查的频繁项目集合和其构建的关联规则集合进行数据矩阵的聚类计算,从而获取不同离群动态性数据在离群动态性数据情报侦查应用中的不同价值指向。

第六步,模糊孤立森林离群动态性数据算法应用结果的评价。在离群动态性数据情报侦查挖掘与分析应用过程中,侦查人员可以用数据秩(1,2,3,...,p)来表示不同离群动态性数据在其所属频繁项目集合中的相对等级位置,促使不同离群动态性数据的价值作用在离群动态性数据情报侦查中呈现出连续化发展态势,然后利用已挖掘获取的离群动态性数据关联数理关系的向量属性与其在离群动态性数据情报侦查中的数据秩的相对等级位置进行互相求和,即可获取到该模糊孤立森林离群动态性数据算法的应用结果评价。

可见,模糊孤立森林离群动态性数据算法能够帮助侦查人员从多维度对涉案离群动态性数据展开挖掘与分析,不仅使对涉案离群动态性数据的挖掘分析广度与深度更加全面和合理,而且能够促使离群动态性数据情报侦查的预测和决策更加客观和准确。

(五)分布式区域时序离群动态性数据算法

离群动态性数据已经逐渐被应用于社会的各个行业领域之中。同时,与离群动态性数据同步产生和发展的还有不同的离群动态性数据算法,而分布式区域时序离群动态性数据算法就属于其中比较典型的一种。由于涉案离群动态性数据具有稳定性差、波动频繁、异常性强等动态性特征,这就给分布式区域时序离群动态性数据算法提供了应用空间。

分布式区域时序离群动态性数据算法的应用原理为:侦查人员基于小波分析的技术方法对涉案离群动态性数据进行平滑滤波处理和多尺度数据分解,消除有冗余干扰或影响的离群动态性数据,融合二进制数据序列算法和二元正态数据密度函数算法对涉案离群动态性数据自身以及与其他相邻离群动态性数据之间的活动周期规律进行挖掘分析,从而实现分布式区域时序离群动态性数据算法的应用价值。[12]为达到离群动态性数据情报侦查最佳的应用实践效果,笔者认为,可以将分布式区域时序离群动态性数据算法分为以下几个步骤:

第一步,利用小波分析技术方法进行预处理。侦查人员可以利用小波分析技术方法寻找和挖掘涉案离群动态性数据中的动态时序离群动态性数据阈值。其在快速傅里叶运算转换中具有充当余弦函数和正弦函数的桥梁作用,而需要的小波系数主要是依据对涉案离群动态性数据采取的数据伸缩、数据逼近、数据单调等转换措施所得。

第二步,划分分布式区域时序离群动态性数据的活动空间。侦查人员在完成分布式区域时序离群动态性数据预处理的基础上,对分布式区域时序离群动态性数据给予网格化划分,即采取数据纬度和数据经度的网格化划分方式将涉案各种离群动态性数据划分为若干大小不等的网格。然后将网格中涉案不同离群动态性数据的坐标位置一一映射到与其相对应的数据单元格中,从而为侦查人员对该单元格中离群动态性数据与涉案犯罪情势之间的关联轨迹进行挖掘分析提供数据纬度和数据经度上的坐标值。

第三步,挖掘分布式区域时序离群动态性数据。在完成对分布式区域时序离群动态性数据活动空间的划分之后,侦查人员可以采取二进制数据序列算法和二元正态数据密度函数算法对任意数据单元格中的离群动态性数据展开数据密度阈值的计算。如果计算所得相邻离群动态性数据之间的数据密度阈值出现相同或相似现象,那么该相邻离群动态性数据所属的数据单元格即可视为异常离群动态性数据区域。为了避免或降低离群动态性数据情报侦查预测和决策的误检、漏检等侦查错误现象的发生,侦查人员还可以采用自相关离群动态性数据函数检验方法,确定该异常离群动态性数据区域内不同离群动态性数据的活动周期变化规律,从而提高分布式区域时序离群动态性数据算法的准确性。

(六)优化遗传离群动态性数据算法

就离群动态性数据挖掘分析的本质而言,其属于对离群动态性数据的关联聚类挖掘分析问题。利用传统离群动态性数据算法对其进行挖掘与分析容易出现难以适应离群动态性数据动态性发展态势的问题,引入优化遗传离群动态性数据算法可以提高离群动态性数据情报侦查应用的准确率。优化遗传离群动态性数据算法的主要原理为:首先,侦查人员对涉案全部离群动态性数据采取抽样的方式组建离群动态性数据的样本频繁项目集;其次,利用聚类算法获取离群动态性数据的聚类中心,并构建离群动态性数据的初始种群;最后,对离群动态性数据的初始种群采取优化遗传操作,并对离群动态性数据的聚类中心和其聚类项目数量进行互相调整,从而完成对涉案离群动态性数据的挖掘与分析。[13]

依据优化遗传离群动态性数据算法的应用原理,其在离群动态性数据情报侦查中的具体应用可以分为以下步骤:

第一步,离群动态性数据的初始种群挖掘生成。侦查人员在离群动态性数据情报侦查应用过程中,需要对涉案离群动态性数据进行抽样分析统计,通过获取离群动态性数据的聚类中心而构建其初始种群。具体步骤为:(1)从海量复杂的涉案离群动态性数据中任意选取数个离群动态性数据,形成离群动态性数据的样本频繁项目集;(2)从该样本频繁项目集中选取一个离群动态性数据,作为其第一个离群动态性数据的聚类中心,然后选择距离第一个离群动态性数据距离最大的离群动态性数据作为第二个离群动态性数据聚类中心;(3)计算剩余的离群动态性数据与已获取的第一个和第二个离群动态性数据聚类中心的数据路径距离阈值,将与上述两者之间最近的数据路径距离阈值设为第三个离群动态性数据的聚类中心;(4)不断重复上述挖掘过程,直到得到全部离群动态性数据聚类中心,从而形成包含离群动态性数据类型特征和频繁项目集数目的离群动态性数据的初始种群。

第二步,优化遗传操作应用离群动态性数据方法的选取。为了得到对离群动态性数据挖掘分析最优的关联聚类结果,必然需要采取优化遗传的操作方法对离群动态性数据的初始种群展开运算,还需要进一步对离群动态性数据的聚类频繁项目数和聚类中心进行适应性调整,促使每个离群动态性数据的关联聚类分析都能够达到最优化。例如,侦查人员先将初始种群中的不同离群动态性数据进行数据编码,促使相同初始种群内的离群动态性数据能够实现类型内相似度最高但类间的相似度最低。如果获取的离群动态性数据比原来的适应度更高,那么新的离群动态性数据就取代原来的离群动态性数据;反之,则继续保留原来的离群动态性数据,从而完成对涉案离群动态性数据的优化遗传操作。

第三步,离群动态性数据聚类中心和其聚类频繁项目数的自适应调整。在离群动态性数据情报侦查应用过程中,所涉及的离群动态性数据具有种类、数目等海量、复杂且动态变化的显著特征,这就必然需要对不同离群动态性数据的类型、数目等展开自适应调整,以便能够帮助侦查人员提升离群动态性数据情报侦查应用效果的优质性和准确性,从而实现离群动态性数据情报侦查的应然价值和实然效果。

综上所述,离群动态性数据情报侦查方法是一种新型动态性数据情报侦查方法,包括霍金斯离群动态性数据算法、LOF离群动态性数据算法、时空维度离群动态性数据算法、模糊孤立森林离群动态性数据算法、分布式区域时序离群动态性数据算法、优化遗传离群动态性数据算法等多种离群动态性数据情报侦查方法,且不同的离群动态性数据情报侦查方法都有着不同的算法优势。基于此,引入离群动态性数据情报侦查方法研究范式,以离群动态性数据情报侦查的内涵与属性为研究逻辑起点,提出离群动态性数据情报侦查的指标体系,构建离群动态性数据情报侦查的流程模型,并对离群动态性数据情报侦查的应用方法展开探讨。这不仅能够促使侦查人员及时掌握和优化离群动态性数据排序的生存发展态势,而且能够帮助其建立有效的离群动态性数据节点的权值集群,提升挖掘与利用算法的精确度,从而实现离群动态性数据情报侦查的应然价值和实然效果。

猜你喜欢
动态性离群侦查人员
一种基于邻域粒度熵的离群点检测算法
自组织多主体系统动态性的推理研究
动态性对简笔画动物审美的影响及其神经机制*
管理者认知视角的环境动态性与组织战略变革关系研究
侦查人员出庭问题实证研究
基于自然邻居邻域图的无参数离群检测算法
一种相似度剪枝的离群点检测算法
侦查人员出庭作证问题研究
国土资源绩效管理指标体系的动态性探讨
浅谈反贪人员提高出庭作证能力建议