情报预测概念内涵与技术发展*

2023-10-31 13:37张海瀛戴礼灿王成刚

电讯技术 2023年10期

张海瀛,戴礼灿,刘鑫,王成刚

(中国西南电子技术研究所,成都 610036)

0 引言

近年来,情报工作在新的内外部环境中进一步发展,研究边界不断拓展。中央国家安全委员会第一次会议提出总体国家安全观,系统提出了要维护的11种安全[1],即政治安全、国土安全、军事安全、经济安全、文化安全、社会安全、科技安全、信息安全、生态安全、资源安全、核安全。这为未来情报研究指明了方向,对情报工作提出了更高的要求。

当前,云计算、大数据、人工智能等先进技术给情报工作实践带来了深刻影响,如何有效利用这些先进技术,实现高质量、高价值情报产品的快速生产,以充分发挥情报“耳目、尖兵、参谋”的作用[2],更好地服务于国家安全,是必须要研究的命题。

根据情报周期理论[3],情报工作可划分为计划与指导、收集、处理与加工、分析与生产、分发与整合、评估与反馈等不同环节。这些环节相互衔接,形成了完整的情报工作图谱。其中情报分析是情报工作的中心环节,其含义是通过对全源数据进行综合、评估、分析和解读,将处理过的信息转化为情报以满足已知或预期的用户需求的过程。情报分析具有层次性,一般可划分为描述性分析、解释性分析、评估性分析和预测性分析四个层次[4]:①描述性分析是根据一定的逻辑关系,综合各种零碎的信息,反映目标或事件的基本情况,回答“何人、何事、何时、何地”问题;②解释性分析需要确定各项事实、各种事件等发生的原因,回答“为何”问题;③评估性分析要判断关键问题或事件的意义,指出其潜在后果;④预测性分析要以未来为导向,回答“接下来会发生什么”。总体上来看,描述性分析、解释性分析和评估性分析主要是立足当下,而预测性分析则更多的是瞄准未来。

本文所述情报预测就是指情报分析中的预测性分析,其既是情报分析的重点,也是辅助决策的核心,及时准确地根据事实与证据进行情报预测是提高决策正确性的关键因素。

当前,大数据、人工智能等先进技术[5-9]为情报预测注入了新的活力。为了更好地挖掘先进技术对解决情报预测任务的价值,本文对情报预测的概念内涵、基本流程、描述框架、方法体系等进行探索性研究,以指导新时期情报预测工作的科学开展。

1 情报预测概念和流程

想要科学地开展情报预测工作,必须要对情报预测的概念与流程具备清晰的认识,以免陷入混淆不清的尴尬境地。

1.1 情报预测概念辨析

预测,即预先监测[10],指利用已掌握的现实情况和知识,推测与判断未来可能出现的状态和趋势,主要目的是由过去和现在去推测未来。一般来说,预测可以分为自然预测和社会预测两大类。其中,自然预测主要是针对自然现象的预测,如地震、海啸、天气等;社会预测主要是针对社会活动的预测,如股票波动、目标行动、群体性事件发展趋势等。自然预测与社会预测存在着很大的差异,主要表现在主客体关系的差别、规律性质的差别、复杂程度的差别和不确定性程度的差别[11],如表1所示。

情报预测主要是对目标行动、事物未来发展趋势做出预测,涉及大量的社会性活动。因此,情报预测更大程度上属于社会预测的范畴,具备互动反射[12]、复杂程度高、不确定性大等特点,具有较高的预测难度。

1.2 情报预测与预警

情报预测与预警是经常容易混淆的概念,本文通过调研认为,情报预警[10,13]主要是预先警告之意,需要给出行动或处置建议。情报预警要决策是否发出警报,并通过合适的方式传递给特定的受众,而预测更多的侧重于判断将要发生什么,主要为决策提供依据,而不直接参与决策。因此,情报预测与预警的关系可以表述为,科学的预测是精确预警的前提和基础;预警是预测价值的实现,通过预警才能把预测结果及时地传送给受众。

1.3 情报预测基本流程

情报预测需要遵循预测的基本流程包括确定预测目标、制定预测计划、收集预测资料、选择预测方法、建立预测模型、计算预测结果、检验和修正预测结果等步骤[14],如图1所示。

图1 情报预测基本流程与维度划分

1)确定预测目标:根据业务需求,提出明确的预测目标,确定预测对象。

2)制定预测计划:确定预测的范围、基本假设、需要收集的资料等,设定预测的时间跨度、空间范围等信息。

3)收集预测资料:收集实施预测或建构模型所需要的数据。

4)选择预测方法:根据预测资料、方法特点,确定预测方法,如逻辑推理、深度学习等。

5)建立预测模型:设计预测模型,明确模型的输入和输出以及可能的预、后处理算法。

6)计算预测结果:基于预测模型和输入数据计算预测结果。

7)检验和修正预测结果:验证预测模型,必要时进行专家咨询。

通过对预测过程进行的分析可知,上述预测流程实际上覆盖业务和技术两个维度,其中,选择预测方法和建立预测模型步骤侧重于技术维度,其他步骤则侧重于业务维度。这表明情报预测问题的解决既需要业务人员的参与,也需要技术人员的参与。业务维度中的确定预测目标和制定预测计划实际上就是要完成情报预测问题的定义,其是开展情报预测技术研究的关键。下节将给出一种情报预测问题的描述框架。

2 情报预测问题描述框架

根据情报预测基本流程,科学实施情报预测需要重点解决解决预测对象定义、预测内容描述和算法模型建构三个问题,如图2所示。其中,预测对象定义主要解决预测问题涉及哪些对象以及对象如何约束的问题;预测内容描述主要解决预测要素包含什么的问题;算法模型建构主要解决方法选择和模型构建问题。

图2 情报预测需要重点解决的三大问题

情报预测问题描述主要解决前两个问题,即预测对象定义和预测内容描述。下面给出一种情报预测问题描述框架,包括预测对象定义方法和预测内容相描述方法,并给出参考案例。

2.1 预测对象定义方法

预测对象定义可以采取原子项+约束项的方式来实现,如图3所示。

图3 情报预测对象定义方法示意图

其中,原子项指情报预测问题所关注的核心项,需要根据业务需求进行提炼总结,如组织机构设立变化、暴恐行动发生情况、目标出行情况、重大事件发展趋势等;约束项指约束原子项的维度信息,这将使得预测对象更加明确。

约束项可以使用的维度信息包括时间、空间、实施对象、承受对象等。对于时间约束,可以是精确日期,也可以是长期、中期、短期、临期等模糊日期,但是在实施预测时必须将其转化为相应的精确日期;对于空间约束,一般指区域、地点等地理信息;对于实施对象,指的是进行原子项所描述活动的实施者;对于承受对象,指的是原子项所描述活动的受事者。需要说明的是,对于预测任务,预测对象必然包括时间约束项,其他约束项可以根据任务需求进行选择,甚至增加新类型约束项。

通过原子项和约束项共同作用,可以实现对大量不同预测对象的精准描述,也可为实际工作中预测对象的合理性检查提供理论参考。

2.2 预测内容描述方法

预测内容描述可以通过定性和定量要素来刻画,如图4所示。

其中,定性要素通常通过模糊词语来表达预测结果,可以是二值词语(如发生、不发生等),也可以是由模糊词构成的多值描述空间(如肯定、几乎肯定、很有可能、很不可能、绝无可能等);定量要素则主要利用精细化的结构来表示,包括预测置信度、发生时间、发生地点、实施者、受事者等要素。

需要说明的是,情报预测内容的描述精细程度与预测任务计划达到的目的有关,需要根据实际情况设定,可以只使用模糊词语来表示,也可以包含更加精细的表述。

2.3 情报预测问题描述案例

以地震预测和暴恐行动预测两个案例对如何利用上述情报预测描述框架进行问题描述进行说明,如表2所示。

表2 情报预测问题描述方式示例说明

通过对相关预测问题的清晰定义,可以明确问题研究的边界,更加有效地支撑技术研究。需要注意是,预测问题的描述应满足实际需求,否则将失去研究意义。

3 情报预测方法体系

情报预测利用多维度历史数据内在的关联特性,结合知识经验和实时数据,对未来的情况进行推理,也即情报预测是基于历史、立足当下、面向未来的,这是情报预测的第一性原理。但是,必须认识到并非任何情况下都能够进行准确预测,情报预测的可行性主要取决于以下三个方面[15]:一是对预测问题的影响因素的了解程度;二是有多少数据是可以用的;三是预测是否会影响试图预测的事物。在实际中,通常更加关注前两个方面。

综上,情报预测方法必须以承认事物发展的延续性为基础,通过充分挖掘历史数据中的内在关联性,考虑偶然因素引发的随机性,实现对事物未来情况的预测。

3.1 情报预测方法体系概述

目前,从实现形式上,情报预测方法主要分为专家主观推理和机器定量预测两大类方法,如图5所示。

图5 情报预测方法体系划分

其中,专家主观推理主要依赖分析专家的主观判断,以形式逻辑、辩证逻辑、认知心理学等为工具进行推理,先后出现了历史经验主义、实证主义、证伪主义等不同流派,代表性方法包括竞争性假设分析法、群体分析法等;机器定量预测则主要借助数学方程、计算机仿真模拟和建构模型等,来解决预测问题,理论上,所有的机器定量预测方法都可以看作模拟专家解决问题的过程,是人类思维推理的机器化和计算化形式。

目前,在预测问题求解实践中,大都将其建模为时间序列预测问题或时空序列预测问题,以更好地利用各种类型的方法。其中,时间序列预测主要对纯时间序列进行分析预测,时空序列预测[16-17]则对具有空间维度的时间序列进行分析预测。时间序列预测问题的应用研究发展得比较早,在社会、经济领域具有深厚的研究基础,如疾病监控、股票预测、人口预测、销量预测等,M系列竞赛[18-19]对其发展贡献较大。时空序列预测问题的应用研究领域主要在气象预测、交通规划、社交网络、电子商务等领域比较活跃,这主要得益于其丰富的时空数据集和明确的预测任务。

下面将主要对机器定量预测方法体系进行分析,以期推动机器定量预测方法的发展。

3.2 机器定量预测方法体系

本文从理论-方法-工具三个层次,对现有的机器定量预测方法体系进行了分析。其中,理论主要明确指出预测方法的理论基础,方法主要列举出具体的实现方法,工具则是给出算法编写和验证所常用的依赖工具,辅助研究人员快速开展研究。在理论层面,将机器定量预测方法划分为物理建模、数理逻辑、统计分析、机器学习、深度学习、神经符号计算等六大类,各类所涉及的理论基础、典型方法和支撑工具如表3所示。

表3 机器定量预测方法体系对比分析表

3.2.1 物理建模方法

以基本物理定律为理论基础,从机理分析出发建立预测模型,模型参数具有明确的物理意义和数学表达式,可解释性强。但是,该类方法要求建模者具有丰富的领域专业知识,并且预测任务应当具有普适的客观规律,一般适用于自然预测任务,主要方法有代数求解法、常微分/偏微分方程法、计算机仿真模拟法等。比如对于目标航路预测问题,可以通过建立目标运动模型,基于卡尔曼滤波来解决,也可以综合考虑目标机动性能、环境、气象等因素建立合适的航路模型。支撑工具主要是各种类型的科学计算库。

3.2.2 数理逻辑方法

以命题逻辑和谓词逻辑等为理论基础,将专家研判经验知识化、专家定性研究过程逻辑化,通过构建知识库和推理机,实现自动化预测。但是,该类方法存在知识建模困难、专家知识难以获取等问题,限制了该类方法的发展,一般适用于具备大量专家经验知识的预测任务,主要方法有知识模板匹配、基于产生式规则的专家系统推理等。数理逻辑方法涉及知识建模、知识获取、知识推理等过程,各过程互相关联,一般利用专门编程工具实现[20],如SWI-PROLOG[21]、PROBLOG[22]、LISP、CLIPS等。

3.2.3 统计分析方法

以平稳性假设和假设检验为理论基础,利用历史数据的统计信息建立预测模型。该类方法认为历史观测值是趋势、周期、外生因素(包括节假日、特殊事件、天气等)、随机误差等因素综合作用的结果,一般适用于数据具有明显内在规律的单变量时间序列预测任务,主要方法包括自回归移动平均法、指数平滑法、季节性趋势预测法等。支撑工具包括statsmodels、probhet[23]等时间序列分析库,其中probhet是Facebook开源的时间序列预测框架,其将时间序列预测模型分解为趋势项、周期性、节假日等三个部分,不需要特征工程就可以综合考虑趋势、季节和节假日等因素的影响,能够很好地解决非平稳时间序列的预测问题。

3.2.4 机器学习方法

以特征工程和数据拟合为基础理论,通过基于历史数据的监督式训练,自动学习数据特征-标签映射关系[24],形成预测模型。该类方法通过人工构建预测特征,可解释性较好,但是存在特征构造和选择难题,比较适合于解决数据有限、复杂性不高的预测问题。主要方法有贝叶斯网络[25]、决策树模型、支持向量机、多层感知机等。支撑工具包括pgmpy[26]、sklearn、XGBoost、LGBM等机器学习库,其中,pgmpy可以用于贝叶斯网络的构建与推理,sklearn包含各种类型的分类算法,XGBoost、LGBM是当前流行的决策树模型库。

3.2.5 深度学习方法

以表示学习+数据拟合为理论基础,无需或少量进行特征工程,能够自动从数据中学习有效特征,并建立特征与标签之间的映射关系[27-29],但是可解释性差,并且深度学习模型参数量大,需要大规模训练数据,一般适用于特征构建困难且具备海量数据的预测任务,主要包括基于卷积神经网络、循环神经网络和图神经网络等模型的预测方法,如ST-ResNet[30]、ST-LSTM[31]、DCRNN[32]、STGCN[33]、T-GCN[34]、Ada-MSTNet[35]等。支撑工具以各种深度学习框架为主,包括tensorflow、pytorch、pytorch-geometric(PyG)[36]、DGL、PyG-temporal[37]等,其中,tensorflow、pytorch主要用于卷积和循环神经网络的构建与训练,PyG、DGL是面向图神经网络的学习框架,PyG-temporal则是面向深度时空图卷积的学习框架。

3.2.5 神经符号计算方法

以符号推理和神经推理融合为理论基础,将规则知识和神经网络结合起来形成推理模型[38],以同时兼具神经网络强容错性和逻辑推理可解释性的优势,实现方法主要包括符号驱动神经推理[39]、神经逻辑推理[40]和神经驱动符号推理[41]三类。其中,符号驱动神经推理通过将逻辑规则作为正则化项,来改进神经推理的嵌入学习;神经逻辑推理利用神经网络逼近逻辑运算,让神经网络也能用于逻辑推理;神经驱动符号推理以符号推理为主,利用神经网络来处理数据的不确定性和模糊性。目前,神经符号计算方法尚处于探索阶段,其在情报预测方面的算法模型和实际应用有待深入研究,还没有形成有效的支撑工具。

目前,基于机器学习和深度学习的预测方法是最近几年发展的重点,而基于神经符号计算的预测方法则正在逐渐进入研究人员的视野。

需要说明的是,任何一种预测方法都不可能完全适用于某一预测问题,需要根据实际需求,具体问题具体分析,综合考虑数据特点和任务特点来选择或组合相应的算法模型,才能取得满足期望的预测结果。

4 结束语

本文首先探讨了情报预测的概念以及其在情报工作中的地位和基本流程,能够为情报预测工作的实施提供支撑;然后,总结了一种情报问题描述框架,包括预测对象、预测内容的规范描述,可以指导完成情报预测问题的清晰定义;最后,从理论-方法-工具三个层次总结了机器定量预测方法体系,可以为预测方法的选用和研究提供参考。目前,机器定量预测方法以机器学习、深度学习为主,大大提高了机器解决情报预测问题的能力,未来将向神经符号计算方向拓展。

情报预测任务繁多复杂,特别是随着总体国家安全观的提出,情报预测任务覆盖了国家安全的各个方面。目前,情报预测问题清晰定义的缺乏和相应数据集的缺失,正在严重制约着情报预测领域的发展。因此,为了促进情报预测领域发展,必须要根据具体业务需求,梳理典型预测任务,清晰明确的定义预测问题,并加强相应的数据建设,才能为技术研究提供标准、规范的自由探索空间。