动态多源信息的随机聚合求解及应用

2024-05-04 11:38易平涛李伟伟董乾坤

统计与决策 2024年7期

王露，易平涛，李伟伟，董乾坤

（1.沈阳工业大学管理学院，沈阳 110027；2.东北大学工商管理学院，沈阳 110167）

0 引言

综合评价通常是指对以多指标体系结构描述的对象（系统）做出的客观、公正、全面的评价，作为管理科学领域的一个重要分支，已被广泛应用于经济、社会、科技、教育、管理与工程实践等诸多领域，并取得了丰硕的研究成果。随着时间的推移，信息社会的快速发展使评价者能够得到被评价对象多个时期的平面数据表，考虑被评价对象多时期（融入时间因素）综合表现的评价问题即动态综合评价问题。动态综合评价是将静态综合评价加入时间因素拓展至动态情景，以达到多期评价结果纵向可比的目的。

已有的动态综合评价研究中，评价信息的数据形式较为单一，多为精确值[1—4]。面对如今复杂多变的评价环境，评价信息的获取手段和呈现形式更为多元化，多源信息的表达方式更贴近实际问题[5]。已有学者针对多源信息的动态综合评价问题进行了研究，如张秦等（2019）[6]针对白数、灰数、区间值模糊数、模糊数等不确定信息提出了基于广义灰色激励因子的MSUI 动态综合评价模型。Peng 和Wang（2014）[7]就犹豫模糊信息提出了动态加权平均和加权几何集结算子。张发明和肖文星（2017）[8]面向混合不确定信息提出动态双激励评价机制对混合信息进行集结。Yu 等（2020）[9]提出了基于改进粒子群算法的属性约简方法，利用改进的D-S证据理论对约简后的混合信息进行融合计算。以上研究均是将多源信息转化为统一的数据类型得到绝对的优劣排序。然而，当评价信息包含来源多样的不确定信息时，评价结论的精确性与评价信息的模糊性在逻辑上存在一定的矛盾，对复杂问题的解释缺乏灵活性。针对此问题，李伟伟等（2014）[10]提出了将多源信息转化为随机数的思路，采用随机模拟仿真的方式对其进行整体求解，得到被评价对象之间带有概率特征的可能性排序结论。之后，文献[11]在文献[12]的泛综合评价方法基础上，通过构建信息集成框架的方式解决了由混合数据、多类型赋权方法、多结构集结方式等组成的泛结构信息的融合难题。

上述研究存在以下局限性：一是集成框架仅能处理某一时期的评价信息，而对于多个时期信息的集成还未给出合理的解决方法；二是在实际应用中，不同时期可能会出现不同程度的信息缺失问题，已有方法均通过补足缺失信息来满足模型使用的条件，但这种方式会影响结论的可靠性。因此，如何在动态多源信息集成框架的求解中既不改变原始评价信息又不影响可靠性结果的输出，是一项需要解决的现实问题。

1 问题描述及多源信息预处理

1.1 问题描述

在动态评价问题中，设n个被评价对象O1，O2，…，On在时期t1，t2，…，tT的评价指标x1，x2，…，xm的评价信息为{xij(tk)}，由{xij(tk)}构成动态信息数据表（见表1）。

表1 动态信息数据表

在实际应用中，在多源评价信息共存的情况下，如何以多时期的评价信息的特征为准则构建信息集成框架，并实现集成框架的柔性求解以获取更具解释性的相对评价结论？以上述问题为导向，具体化为以下三个问题：（1）如何对多类别、残缺、片段等多源信息进行综合处理？（2）如何构建动态多源信息集成框架？（3）如何柔性求解信息集成框架并获取相对评价结论？

1.2 多源信息的预处理

设某评价问题有L个评价者S1，S2，…，SL关于n个被评价对象O1，O2，…，On在m个指标x1，x2，…，xm上的取值为xijk，其中：i=1，2，…，n;j=1，2，…，m;k=1，2，…，L。包含精确值、模糊集（区间数、三角模糊数、梯形模糊数）、直觉模糊集（直觉模糊数、直觉三角模糊数、直觉梯形模糊数、区间直觉模糊数）、语言集（语言信息、二元语义信息）、序数等多种数据形式。

（6）语言信息：rijk∈{s0(0,0,0.125),s1(0,0.125,0.25),s2(0.125,0.25,0.375),s3(0.25,0.375,0.5),s4(0.375,0.5,0.625),s5(0.5,0.625,0.75),s6(0.625,0.75,0.875),s7(0.75,0.875,1),s8(0.875，1，1)} 。其中，s0，s1，…，s8分别表示极差、很差、差、稍差、相当、稍好、好、很好、极好。

（7）二元语义信息：xijk=(sk，ak)，若-0.5 ≤ak≤0，则rijk=(a+ak(c-a)，b，c)；若0 ≤ak≤0.5，则rijk=(a，b，c+ak(c-a))。

（8）序数：n个对象的排序为{1，2，…，n} ，当xijk=1时，rijk=[(n-1)/n，1] ；当xijk=2 时，rijk=[(n-2)/n，(n-1)/n]；依此类推，当xijk=n时，rijk=[0，1n] 。

2 动态信息集成框架的构建及求解

2.1 动态信息集成框架的构建

以传统评价流程作为信息流结点，多时期的信息流结构化封装构成了动态多源信息集成框架。为保证被评价对象结果的纵横向可比，各时期的评价信息使用同一准则（如多信息类别、专家偏好等）构建集成框架。下页图1为动态多源信息集成框架的简单示意图。

图1 动态多源信息集成框架

2.2 动态多源信息集成框架的求解

动态多源信息集成框架的求解主要涉及两个关键点：一是针对多类别、残缺、片段等信息的融合处理；二是确定时期t1，…，tT的信息权。就关键点一，将多源信息转化为样本充足的随机数，通过充分比较来获取优胜度矩阵。就关键点二，根据评价者不同时期的偏好需求来确定时间信息权，并反映在模拟规模中。

2.2.1 信息集成框架的求解步骤

定义1中设有t1，t2，…，tT评价时期，则有：

通过式（1）得出时间信息流的权重，若评价者偏好“厚今薄古”，则令λ＞0，且λ越大时间权重增长越快；若评价者偏好“厚古薄今”，则令λ＜0，且λ越小时间权重减少越快；若评价者对时间无偏好，则令λ=0。

将动态多源信息集成框架求解的具体步骤归纳总结如下。

步骤1：根据评价时期及评价准则构建动态信息集成框架。

步骤2：将多源信息按照1.2节方法进行预处理。

步骤3：在某一信息流包含的多源信息区间内以特定分布方式随机提取数据，根据各环节处理方法对提取的随机信息进行集结，得到被评价对象的优劣排序。

步骤4：重复步骤3，并统计两两被评价对象间的优劣次数，形成优胜次数矩阵。当仿真充分时，优胜次数矩阵达到稳定，则进入下一条信息（子）流的模拟求解。

步骤5：记时期tk的第h条信息流对应的第l条信息子流的优胜次数矩阵为Chl(tk)，充分运行每条信息流后，根据式（2）求得时期tk的综合优胜次数矩阵，记为C(tk)，则有：

其中，pr(tk)表示信息流的信息权，zhl(tk)表示信息子流的信息权，Chl(tk)表示信息子流的优胜次数矩阵。

步骤6：通过式（1）确定各时期的时间权重p(t1)，…，p(tT)，将其与相应时期的优胜次数矩阵C(t1)，…，C(tT)按式（3）进行线性整合，获得综合优胜次数矩阵C=[cij]n×n。

步骤7：按式（4）将优胜次数转化为优胜概率sij：

将优胜度矩阵记为S=[sij]n×n。

2.2.2 动态优胜度矩阵的简化求解

本文根据定理1提出一种简化求解算法，以提升计算效率。

定理1：在随机模拟仿真充分的条件下，各个时期的优胜度矩阵和相应的时间信息权线性集结得到的综合优胜度矩阵与动态多源信息集成框架的整体模拟求解得到的优胜度矩阵相等。

证明：假设任意选取两个被评价对象Oa和Ob(a，b=1，2，…，n)，pk(k=1，2，…，T)为时间信息权。在整体求解中，Oa优于Ob的次数为l，总体仿真次数为sum,则Oa优于Ob的优胜概率为sab=l sum。其中，假设在tk时期Oa优于Ob的次数为lk，仿真总次数为sumk，Oa优于Ob的优胜概率为=lk sumk，则有：

在单时期求解中，假设tk时期的仿真总次数为sum′k，Oa优于Ob的次数为l′k，则Oa优于Ob的优胜概率为=l′k sum′k。在充分仿真的条件下，，则有：

因此，动态多源信息集成框架的整体求解结果与单时期的简化求解结果一致，定理1得证。

3 基于二叉树的可能性排序求解

从N个被评价对象的n阶优胜度矩阵可导出n!条可能性排序链，但不同排序链的稳定性存在差异。已有研究从“优超数”和“稳定性”概念出发获取最优且最稳定的排序链，但是在大规模评价背景下，已有方法的计算成本较大、复杂程度较高。针对这一局限性，本文根据优胜概率的特征（以0.5 为临界点，大于0.5 表示“优于”，小于0.5表示“劣于”），以0.5为划分阈值，将被评价对象集划分为优于和劣于两个子集，多次循环直至两个子集中仅包含一个被评价对象，具体步骤如下。

步骤1：从n个被评价对象O1，O2，…，On中随机选择一个被评价对象Ok。

步骤2：将Ok与其余n-1 个被评价对象之间的优胜概率与阈值0.5分别进行比较，把Ok优胜概率大于或等于0.5 的被评价对象列在Ok的右边，称为右子集；反之，把Ok优胜概率小于0.5 的被评价对象列在Ok的左边，称为左子集。

步骤3：从Ok的右子集和左子集随机选择一个被评价对象，分别记为Oi和Oj。以右子集为例，判断Oi与右子集中其余被评价对象间优胜概率与阈值0.5 的大小，将右子集划分为Oi的左右子集；类似地，将左子集划分为Oj的左右子集。

步骤4：重复步骤3 直至无法分割出新的子集。

步骤5：根据划分后的二叉树结构，采用中序遍历分别访问左结点、被选择对象、右结点，按访问顺序导出排序链。从优胜度矩阵中导出排序链相邻被评价对象的优胜概率，便可获取最终带有概率特征的可能性排序链。

以二叉结构快速划分对象集可以大幅提升求解效率。

4 算例应用

请8 位专家(E1，…，E8) 评价5 个区域(O1，…，O5)的创新水平，专家就研发经费投入强度(d1)、研发人员投入强度(d2)、科技创新支出强度(d3)、科技专利申请强度(d4)、科技专利批准强度(d5) 、高新技术转化指数(d6)、产学研一体化指数(d8)、科技企业活跃度(d9)、高科技企业收益指数(d7)、高效研发平均强度(d10)，提供了4个时期(t1，…，t4)的评价信息，具体见表2至表5。

表2 时期t1 地区创新水平的原始评价信息

表3 时期t2 地区创新水平的原始信息

表4 时期t3 地区创新水平的原始信息

表5 时期t4 地区创新水平的原始信息

（1）动态信息集成框架的构建

时期t1至时期t4按照专家领域这一准则构建信息流，并根据评价目的整合信息集成框架，如下页图2所示。

图2 地区创新水平的动态多源信息集成框架

（2）多源信息的处理

时期t1至时期t3原始数据范围为[0.1,9.0]，时期t4原始数据范围为[0.08,9.00]，按照2.2节的方法将信息转化至[0,1]内。按照均匀分布的方式在区间内生成随机数，并根据仿真步骤对随机数进行集结。

（3）信息权的确定

本算例采用“厚今薄古”的思想取λ=0.25，按式（1）获取的时间信息权分别为p1=0.1943，p2= 0.2292，p3=0.2675,p4=0.3090。根据G1法求解信息流的信息权分别为p1=0.2176，p2=0.1555，p3= 0.3657，p4=0.2612。相应的信息子流的信息权分别为p11=0.3504，p12=0.2920，p13=0.2086 ，p14=0.1490 ，p21=1.0000 ，p31=0.3333 ，p32=0.3333，p33= 0.3333，p41=0.4167，p42=0.5833。

（4）优胜次数矩阵的获取

以时期t1的第4条信息流为例，该条信息流包含两条信息子流，涉及的评价信息见下页表6。

表6 时期t1 第4条信息流的评价信息

利用随机数发生器生成随机数并进行集结，运行最大次数为1200000次。得到d9和d10的优胜次数矩阵分别为：

根据式（2）得到第4条信息流的优胜次数矩阵为：

需要说明的是，在该条信息流中C42( )d10中被评价对象O3与其余被评价对象的优胜概率分别为s31=0.6309，s32=0.4495，s34=0.7338，s35=0.8817，C41( )d9中数据缺失，与其他被评价对象没有进行比较，在C4中被评价对象O3与其他被评价对象的优胜次数只是同比例缩小，没有改变被评价对象O3与其他被评价对象之间的优胜概率，而除被评价对象O3外，通过对优胜次数矩阵的线性处理，其余被评价对象之间的优胜概率发生了改变。

其他信息流的优胜次数矩阵的求解方法相同，这里不再赘述。根据式（2）、式（4）和求解步骤，得到时期t1至时期t4的优胜度矩阵分别为：

（5）优胜度矩阵的确定

根据式（3）和式（4）获取的综合优胜度矩阵为：

（6）可能性排序的获取

时期t1至时期t3的排序相同，仅相邻两者的优胜概率不同，O4、O5在时期t1至时期t4分别处于首位和末位。O3在时期t1至时期t4的排序均优于O2，但优胜概率略有变化，分别为55.24%、63.64%、70.45%、52.56%。O2在时期t1至时期t3分别以63.20%、52.97%、54.55%的概率优于O1，但在时期t4，O1反超O2。由此可见，小概率事件并非不可能发生，带有概率特征的相对评价结论对复杂评价问题的解释更具灵活性及说服力。

5 结束语

动态多源信息集成框架为多源信息共存、评价信息残缺、多评价时期的动态综合评价问题提供了一种新的思路。多时期的评价信息以同一准则构建信息集成框架，根据评价者的时间信息偏好求解时间信息权，将各时期多源信息转化为统一范围内的随机数，并通过充分模拟仿真获取多时期和单时期的综合优胜度矩阵。最后，基于二叉树方法从综合优胜度矩阵中导出被评价对象带有概率特征的最优可能性排序。

本文所提方法为动态多源信息评价问题提供了理论支撑，获取的相对评价结论对复杂动态评价问题更具解释力，能够为评价者和被评价对象提供更多元的参考信息。目前，多源信息未涉及文本类、图片类等信息的处理。因此，未来的研究将聚焦如何从非结构信息中提取有效信息并加入信息集成框架中，为评价者和被评价对象提供更为全面的评价服务。