基于一致图学习的鲁棒多视图子空间聚类

2022-01-05 02:31潘振君张化祥

计算机应用 2021年12期

潘振君，梁成，张化祥

（山东师范大学信息科学与工程学院，济南 250358）

（∗通信作者电子邮箱ALCS417@sdnu.edu.cn）

0 引言

聚类是机器学习中最热门的讨论话题之一，广泛应用于数据挖掘、机器学习等多个领域。随着数据分析技术的日益成熟，多视图聚类成为人们关注的焦点。由于数据的异构性，传统的单视图聚类算法难以适用于某些特定场景。多媒体数据来源广泛且表示形式多样，例如，在一个新闻事件的报道中，报道的内容可能来自多个不同的新闻媒体机构，对该新闻的报道可能采用文字、图片或视频等形式［1-4］。不同的信息获取方式和表示方式构成了多视图数据。多视图数据学习已经成为数据挖掘、多媒体计算等领域中尤为重要的一部分，越来越多的聚类算法被提出。在此之前，处理多视图数据的方式是直接将多个视图的特征进行拼接来构造一个新的特征矩阵，再对其应用单视图聚类算法得到聚类的结果；但是这种方法有明显的缺陷，它没有考虑每个视图之间的内部联系，聚类性能也难以提高。因此学者们提出了多视图聚类算法（Multi-View Clustering，MVC）。多视图数据利用不同的视图来描述事物的不同特征，但本质上是对同一事物的描述。与单视图聚类算法相比，多视图聚类算法弥补了单视图聚类算法使用单一数据类型，不能考虑数据的多样性和不同视图之间的一致性等缺点。不同的视图不仅包含了所有视图共享的数据信息，还包含了彼此不同的特定信息，这就是多视图数据的多样性。对数据中的异构特征进行良好的融合，可以有效提高算法的鲁棒性。

近年来，学者们提出了很多先进的多视图聚类算法，根据处理和使用多视图数据方式的不同，这些算法可以大致分为以下几类：多视图协同训练算法、多视图多核学习算法、多视图图学习聚类算法、多视图子空间聚类算法。协同训练最初是为解决半监督学习问题而提出的。在半监督学习中，数据由有标签数据和无标签数据组成，算法考虑利用多视图数据和无标签数据的信息来辅助传统的监督学习，协同训练算法的核心思想是利用多视图数据和无标签数据的信息来辅助传统的监督学习，在多视图数据上利用有标签数据分别训练多个分类器。在训练过程中，每个分类器对无标签数据中置信度较高的数据进行标记，并将标记后的数据加入到分类器的有标签数据中，利用新标记不断进行更新。最具代表性的算法为Blum 等［5］提出的协同训练算法。文献［6］中提出了一种结合K-means 聚类和线性判别分析的协同训练算法，该算法利用一个视图中的无监督聚类结果来学习另一个视图中的判别子空间。多核学习（Multiple Kernel Learning，MKL）［7］算法是一类比单个核函数更具灵活性的基于内核的学习算法，多核学习的内核对应不同的视图，因此多核学习在处理多视图数据方面得到了广泛的应用。在多核框架下，样本在特征空间中的表示问题转化为核与权系数的选择问题。多核学习中的一个关键步骤是根据每个内核的重要性为其分配一个合理的权重。文献［8］中提出了一种改进的算法，该算法通过学习低秩核矩阵来获得相似度，并在核的邻域内找到最优核。文献［9］中提出了聚类加权核K均值算法，为不同视图的内部簇分配权重，并应用核K均值，学习不同视图共同的聚类指标矩阵。由于图是表示各种类型对象之间关系的重要数据结构，因此基于图学习的聚类方法也被广泛地用于聚类任务。图中的每个节点对应一个对象，每条边表示两个对象之间的关系，用权重衡量相邻样本点之间的相似度。

权值越大相似度越高，被划分到同一类的概率越大。文献［10］中提出了一种基于三阶段图的多视图聚类算法，该算法结合子空间的图表示和层次聚类方法，但未考虑不同视图的权重；文献［11］中则进行了基于加权多视图的聚类研究。这两种算法首先为每个视图生成一个相似度图，然后对每个图进行加权来构建统一表示，从而生成最终的聚类结果。

本文主要研究多视图子空间聚类算法。子空间分割聚类算法是近年来学者广泛研究的重点，涉及机器学习、计算机视觉和模式识别等多个领域。子空间聚类算法是将原始数据集映射到其子空间表示，然后构造低秩的相似矩阵。该方法保留了原始数据集的相关性，能更好地揭示数据的子空间结构。近年来，基于子空间的多视图聚类算法由于其有效性而得到发展［12-15］。这些算法旨在发现嵌入在原始数据中的底层子空间，从而得到更加准确的聚类结果。为了有效地整合来自不同视图的特征，设计了各种多视图子空间聚类算法，并取得了显著的效果。这些算法的主要区别在于对表示系数矩阵进行正则化。如文献［16］中的稀疏子空间聚类（Sparse Subspace Clustering，SSC）算法对数据表示使用ℓ0范数正则化；但问题是非凸的，不能直接求解，因此作者使用相应的凸代替ℓ1范数获得问题的最优解。文献［17］中提出的鲁棒低秩表示分割算法通过最小化数据表示的秩得到一个低秩表示矩阵，并采用交替方向最小化的增广拉格朗日乘子方法（Augmented Lagrange Multiplier Method with Alternate Direction Minimization，ALM-ADM）求得最优解。

现有的多视图聚类算法已经取得了许多优异的成果，但目前多视图下的聚类任务仍存在一些亟待解决的问题：

1）原始数据集中通常存在误差、离群值等噪声的干扰，直接在原始数据集上学习相似度矩阵，会对聚类结果产生影响；

2）一些算法中没有考虑不同视图之间差异，不同的视图对聚类结果有不同的重要性，一般通过引入参数来解决这个问题，但这会使算法更加复杂；

3）许多方法需要引入额外的聚类步骤才能得到最终的聚类结果。

为了解决上述问题，本文提出一种基于一致图学习的鲁棒多视图子空间聚类（Robust Multi-view subspace clustering based on Consistency Graph Learning，RMCGL）算法。该算法首先学习原始数据在低秩子空间的潜在鲁棒表示，然后根据该表示学习不同视图下的相似度矩阵。考虑到不同视图之间的多样性，根据相似度矩阵联合学习一个一致图，并通过自适应的方式自动调整不同视图的权重。为了有效求解目标函数，算法采用交替方向极小化的拉格朗日乘子优化算法。与传统的多视图子空间聚类算法相比，RMCGL 算法在仿真数据集及真实数据集上均表现出较好的性能。图1 给出了RMCGL算法的流程。

图1 RMCGL算法流程Fig.1 Flowchart of RMCGL algorithm

1 相关工作

本章将简要介绍与本文密切相关的两个已有研究工作：基于低秩表示（Low-Rank Representation，LRR）的鲁棒子空间分割［18］和基于多视图聚类与自适应邻居（Multi-view Learning with Adaptive Neighbours，MLAN）的半监督分类［29］。其中，LRR是单视图聚类算法，MLAN为多视图聚类的算法。

1.1 LRR

LRR 是一种基于低秩表示的聚类算法，该算法与SSC 非常相似，但其目标是在所有候选向量中寻找一种低秩表示而非稀疏表示。给定一组向量X=[x1，x2，…，xn]，假设这些向量来自k个独立子空间的并集，算法的目标是在d维欧氏空间中，将所有数据向量分割到它们各自所属的子空间中。因此，LRR算法通过求解下面的凸优化问题找到D：

1.2 MLAN

MLAN 是一种基于自适应邻居节点的多视图聚类算法。该算法从数据点的角度将每个视图的特征融合，求出一个统一的相似度图U。MLAN 是对基于自适应邻居聚类（Clustering with Adaptive Neighbors，CAN）［20］的扩展，可以同时进行多视图聚类和局部流形结构学习。该算法如下所示：

2 基于一致图学习的鲁棒多视图子空间聚类

本章将详细介绍本文所提出的RMCGL 算法以及其求解和优化过程。首先介绍一些基本符号的含义。矩阵和向量分别写成加粗斜体大写字母和加粗斜体小写字母；Frobenius 范数的符号为‖ ⋅ ‖F，ℓ2范数的符号为‖ ⋅ ‖2；其他本文常用的符号定义见表1。

表1 常用符号及其定义Tab.1 Common symbols and their definitions

2.1 RMCGL算法

给定V个视图X1，X2，…，XV为各个视图对应的数据矩阵，其中第v个视图表示为Xv={Xv1，Xv2，…，Xvn}∈Rdv×n。对于任一视图Xv中的数据，其通常是存在于一个潜在的低维空间中而非均匀分布于整个空间，因此，所有的数据都可在低维子空间中进行表示。基于此，首先将LRR 算法扩展到多视图学习中，即有：

其中：Av和Ev的定义如表1 所示。通过式（1）可以获得各视图下数据的子空间表示矩阵，并且能够有效消除原始数据中噪声或异常值的影响。该过程对噪声具有鲁棒性，可得到不同视图的潜在鲁棒表示；但式（1）中没有考虑不同视图间的联系，也无法直接获得有效的相似度矩阵进行聚类。一个可行的解决方法是将Av作为各个视图下的相似度矩阵，然后通过目标函数学习一个统一的相似度矩阵A。然而，尽管该方案可行，但Av作为相似度矩阵所代表的含义与其本质的定义并不相同。为了解决该问题，本文利用Av作为样本的潜在特征表示，为各个视图学习一个新的相似度矩阵Sv，目标函数如下：

其中：λA、λS、λE是三个非负参数，用来平衡各项；wv={w1，w2，…，wv} 用来衡量不同视图之间的权重。在LLR 算法中表示学习和误差项分别采用核范数和ℓ2，1范数，但是为了使后续优化问题方便求解，本文中表示学习和误差项均采用F范数。公式中的前两项用来学习每个视图的潜在鲁棒表示，即图1 中①、②过程，不同于直接在原始数据上学习相似度矩阵，该过程考虑了原始数据噪声的干扰。为了获得更好的聚类结果，三、四两项（图1 过程③）根据得到的鲁棒表示，学习不同视图的相似度矩阵。最后一项的目的是利用多个相似度图，学得一个一致图，如图1 过程④所示，该过程充分考虑了视图间的多样性。引入权值参数w（图1 过程⑤）为不同视图分配合适的权值。本文RMCGL算法采用自加权方式，其更新规则将在下一节中详细介绍。此外，为了直接通过一致图G得到最终的聚类结果而不借助于其他的聚类算法，本文对图G的拉普拉斯矩阵施加一个秩约束rank(LG)=n -c，使得一致图G中连通分量的个数恰好等于聚类的个数c，由此得到如下结果：

由于秩约束的存在导致上式求解困难，因此，采用秩约束的等价形式。令σc(LG)为LG第c小的特征值，LG是半正定的，有σc(LG)≥0。根据图拉普拉斯矩阵的性质，特征值为0 的重数c等于图G中连通分量的个数。即LG应有c个0 特征值，此时满足秩约束条件。根据Ky Fan’s 定理［21］，有

其中：F为标签矩阵。因此，式（4）中的秩约束可由式（5）表示，将式（4）和（5）结合得到最终的目标函数如下所示：

2.2 算法求解

本节对提出的RMCGL算法进行详细的求解。由式（6）可以看出，该算法在一个统一的优化框架中学习与数据表示相关的亲和图。算法中有五个变量需要求解，考虑到式（6）同时关于所有的求解变量是非凸的，但当其中一个变量固定时，对其他变量的优化都是凸的，因此本文采用交替方向最小化（Alternating Direction Minimizing，ADM）策略［22］的增广拉格朗日乘子（Augmented Lagrangian Multiplier，ALM）对目标函数进行求解。首先引入一个辅助变量C来代替目标函数第三项中的A，以分离变量。算法的增广拉格朗日函数如下：

其中：M1和M2是拉格朗日乘子，定义，其中μ＞0是惩罚参数。

1）更新E。

当固定其他变量时，只保留增广拉格朗日函数中包含E的项，对其求偏导后置0，可得如下结果：

2）更新A。

只保留与A相关的项，然后对A求导并置0，得到如下结果：

3）更新C。

与求E和A的方法类似，C的更新规则如下：

根据拉普拉斯矩阵的定义，很容易得到

因此Cv的解如下：

4）更新S。

对于S的求解，可以将其看作是在求解以下优化问题：

该问题可同样根据约束条件利用拉格朗日函数进行求解，最终求得S的解如下：

其中si有k个非零项。

5）更新G。

值得注意的是，问题（15）对于每个不同的i是独立的，可单独求解。因此可将式（15）进一步转化为：

该步骤的详细求解过程可参考文献［23］。

6）更新F。

F可以通过最小化以下公式求得：

F的最优解由LG的c个最小特征值对应的c个特征向量构成。

7）更新权重wv。

8）更新拉格朗日乘子M1和M2。

除了上述变量的更新外，还有两个拉格朗日乘子需要更新，更新规则如下：

综上所述，目标函数（6）的详细求解过程如算法1。

算法1 RMCGL算法

2.3 时间复杂度分析

本文提出的RMCGL算法求解时采用的是迭代求解方式，可将算法分为多个子问题单独计算，因此，该算法的时间复杂度可以通过计算每个子问题的时间复杂度获得。每个子问题的时间复杂度如下：式（14）更新每个视图的相似度矩阵Sv，其时间复杂度为O（Vnk）；此外对相似度矩阵初始化所用时间复杂度为O（Vnkd）；式（18）更新学习到的一致图G，其时间复杂度为O（cn），其中c是聚类的个数；式（19）更新F，需要计算拉普拉斯矩阵的特征向量，其时间复杂度为O（cn2）；式（20）更新自加权系数w，其时间复杂度为O（Vn2）。假设该算法迭代次数为t，则该算法的时间复杂度为O（t（Vnk+cn+cn2+Vn2）+Vnkd）。

3 实验设计与结果分析

为了验证RMCGL算法的有效性，利用三个常用评价指标在2 个仿真数据集、6 个真实数据集以及4 个癌症数据集上与其他算法进行了比较。此外，还设计了多个实验来进一步对所提出的算法进行分析，包括：收敛性实验、参数分析实验、消融实验和鲁棒性实验。

3.1 数据集描述

3.1.1 仿真数据集

本文使用两个合成的仿真数据集来衡量RMCGL 算法的聚类效果。

synthetic 数据集［24］涉及三个基因组数据集，分别为RNA表达、DNA 甲基化和miRNA 表达。首先，对三个基因组数据集进行数据预处理，分别随机抽取200 个缺失率低于20%的样本，采用k近邻算法，将200 个完整样本的非空邻居的均值赋值给缺失部分，得到第一种类型的数据矩阵，对其进行奇异值分解得到。随后构造三个由多个簇组成的数据矩阵Yi=Bi+θ，其中Bi从｛0，2，4，6｝中随机抽样得到，代表不同簇的伪生物表达水平，θ～N(0，1)为随机偏差，由此得到第二种类型的数据矩阵。最后，将这两种类型的数据矩阵进行重构，得到最终的仿真数据集。

two Gaussian 数据集［25］是一个随机生成的高斯数据集，在这个数据集中有两组服从高斯分布的数据，共200 个样本。第一个视图的均值为，协方差为。第二个视图的均值为，协方差为。

3.1.2 真实数据集

6 个数据集分别为100leaves、BBC、NGs、Caltech101-20、COIL-20 和MSRC，详细情况如下（总结见表2，其中v1～v6表示不同视图的特征数）。

表2 六个真实数据集的详细描述Tab.2 Detailed description of six real-world datasets

1）100leaves 数据集。该数据集由100 种植物的1 600 个样本组成，每个样本特征包含形状描述、细尺度边缘和纹理直方图。

2）BBC 数据集。该数据集由BBC 新闻网站的685 份文档组成，这些文档对应五个领域，分别为商业、娱乐、政治、体育和科技。

3）新闻组数据集（NGs）。该数据集包含20个子集的新闻组数据集，由500 个新闻组文档组成。每个原始文档都用三种不同的方法进行预处理（有监督互信息预处理、无监督互信息预处理和分区预处理），构成三个视图，并使用五种主题标签中的一种进行注释。每个新闻组对应一个不同的主题。

4）Caltech101-20 数据集。该数据集包含20 类2 386 幅图像，每幅图像都有6 个特征，分别为：Gabor 特征、小波矩（Wavelet moments）特征、统计转换直方图（CENsus Transform HISTogram，CENTRIST）特征、方向梯度直方图（Histogram of Oriented Gradient，HOG）特征、通用搜索树（Generalized Search Trees，GiST）特征和局部二值模式（Local Binary Pattern，LBP）特征。

5）COIL-20 数据集。该数据集包含20 个对象，将每个对象水平旋转360°，每隔5°拍摄一张照片。每个对象有72张图像，图像像素大小为64×64，灰度图像共计1 440张图像。

6）MSRC 数据集。该数据集有5 个视图，包含7 种类别（树、建筑、飞机、牛、脸、汽车和自行车）的210张图像。

3.1.3 癌症数据集

机器学习算法在生物医学领域应用广泛，为了验证该算法在癌症亚型分类上的效果，从人类癌症数据库TCGA 中挑选了4个数据集，分别为Breast、Colon、GBM 和Melanoma，每个数据集包含三个组学数据：基因表达、DNA 甲基化和miRNA表达数据。

3.2 实验方案

参数设置：目标函数中有四个参数λE、λA、λC、λF，λE、λA、λC的取值范围为［0.01，0.1，1，10，100］。在聚类过程中对λF采用自动更新的方式，初值设为1，在每次迭代中，当一致图G的连通分量分别小于或大于聚类的簇数时增大或减小λF(λF=λF*2，λF=λF/2)。最近邻个数为15，对于每个方法和数据集，重复运行30次记录平均结果。

为了评估该算法的性能，本文将该算法与现有的多种聚类算法进行了对比。典型的单视图对比算法有：非负矩阵分解（Nonnegative Matrix Factorization，NMF）［26］和自适应邻居节点聚类CAN。多视图对比方法包括基于图的多视图聚类系统GBS（Braph-Based System）［27］、多视图非负矩阵分解（Multiview Nonnegative Matrix Factorization，MultiNMF）［28］、共正则化谱聚类（Co-regularized multi-view Spectral Clustering，CoregSC）［29］、协同训练谱聚类Co-train［30］、基于一致图的多视图聚类（Graph-based Multi-View Clustering，GMC）以及自适应邻居多视图聚类（MLAN）。在表3 中对比了本文算法与上述多视图聚类算法的时间复杂度。

表3 时间复杂度对比Tab.3 Time complexity comparison

为了评估该算法的性能，本文采用三个常见的评价指标：精度（Accuracy，ACC）、归一化互信息（Normalized Mutual Information，NMI））和纯度（Purity）来衡量实验效果。此外，为了评估各个算法在癌症数据集上的效果，本文采用了经验p值衡量癌症样本分组后的生存差异［31］，p值越低，表示不同组间的生存差异越显著。

3.3 实验结果分析

表4～6 分别列出了本文算法与其他聚类算法在仿真数据集及6 个真实数据集上的ACC、NMI、Purity 结果。观察表4～6可知，对于评价指标ACC，本文算法在每个数据集上都取得了最好的结果。

表4 不同聚类算法在不同数据集上的ACC值单位：%Tab.4 ACC values of different clustering algorithms on different datasets unit：%

表5 不同聚类算法在不同数据集上的NMI值单位：%Tab.5 NMI values of different clustering algorithms on different datasets unit：%

表6 不同聚类算法在不同数据集上的Purity值单位：%Tab.6 Purity values of different clustering algorithms on different datasets unit：%

表7 给出了各对比算法在4 个癌症数据集上经验p值的实验结果，同时图2 给出了RMCGL 算法在GBM 与Melanoma数据集上的生存分析曲线。与上述多视图聚类算法相比，RMCGL 算法在所有的癌症数据集上都得到了显著的p值（p‑value＜0.05），并且在四组癌症数据集上的结果都是最显著的。这些结果充分验证了本文算法的有效性及良好的泛化能力。

表7 四个癌症数据集上经验p值比较Tab.7 Comparison of empirical p-values on four cancer datasets

图2 RMCGL算法在GBM与Melanoma数据集上的生存分析曲线Fig.2 Survival analysis curve of RMCGL algorithm on GBM and Melanoma datasets

图3 为RMCGL 在NGs 和two Gaussian 数据集上学习得到的一致图G对应的热图，从图中可以清晰地看到一致图的块对角结构，这说明算法能学习一个高质量的相似度图结构。

图3 RMCGL学习得到的一致图G在NGs和two Gaussian 数据集上的热图Fig.3 Heat maps of the consistency graph G learned by RMCGL on NGs and two Gaussian datasets

3.4 消融实验分析

本文RMCGL 算法中创新性地引入了秩约束和鲁棒表示学习，为了验证算法各部分对实验结果的影响，设计了对应步骤的消融实验。取表4 中4 个数据集的ACC 值所对应的参数进行消融实验的对比分析，主要验证秩约束、相似度矩阵学习和鲁棒表示学习对算法结果的影响。将去掉秩约束时的过程称为RC；直接从不同视图的鲁棒表示学习中学习一个一致图的过程为RL。此外去掉鲁棒表示学习时，该算法即为GMC算法，本文算法与前者的区别在于，前者从原始数据集中学习不同视图的相似度矩阵，而RMCGL预先学习原始数据的鲁棒表示作为相似度学习的输入。结果如表8 所示，从表中可以看出，在分别去掉秩约束、表示学习和相似度学习后的实验结果明显差于RMCGL 的结果，尤其在NGs 数据集中，添加秩约束后的结果提升了超过30个百分点；在MSRC数据集中，根据表示矩阵学习一致图时的结果比该算法结果低20 个百分点左右。去掉表示学习时的结果见表4。由此可见，对学习到的一致图施加秩约束、子空间鲁棒表示学习以及根据鲁棒表示矩阵学习不同视图的相似度矩阵进而得到一致图的过程对实验结果都做出了贡献。

表8 消融实验ACC结果单位：%Tab.8 ACC results of ablation experiments unit：%

3.5 鲁棒性性能评估

为了验证RMCGL算法对实验结果的鲁棒性，设计了以下实验：将误差正则化项部分去掉，得到如图4 所示结果。从图4 中可以看出，在固定参数的情况下，去掉误差正则化项部分后的4 个数据集的ACC 结果都有一定程度的下降，但整体下降幅度偏小，这表明RMCGL算法对数据具有较好的鲁棒性。

图4 去掉误差正则化项后在固定参数时各数据集的ACC结果Fig.4 ACC results of different datasets at fixed parameters after removing error regularization term

3.6 收敛性分析

本节分析了RMCGL 算法的收敛性，如图5所示，图中的x轴和y轴分别表示迭代次数和目标函数的值。从图5 中可以看出，本文经过少量迭代后就可以达到稳定的收敛状态。

图5 RMCGL算法在100leaves和BBC数据集上的收敛曲线Fig.5 Convergence curves of RMCGL algorithm on 100leaves and BBC datasets

3.7 参数敏感性分析

RMCGL算法中共有三个参数λE、λA和λC。为了分析这三个参数对算法性能的影响，将其中一个参数固定后分析另外两个参数变化对NMI 值的影响，见表9～10。三个参数在所有数据集上的取值范围均为［0.01，0.1，1，10，100］。

表9 NGs数据集NMI值随参数变化分析Tab.9 Analysis of NMI value of NGs dataset with parameter variation

表10 COIL20数据集NMI值随参数变化分析Tab.10 Analysis of NMI value of COIL20 dataset with parameter variation

图6 展示了λE在两个数据集上的参数分析结果。在NGs数据集中，当λA和λC的值取（0.01，0.01）时，固定这两个参数，得到NMI相对于λE这个参数时的取值范围：当λE取1时的效果最好，NMI的值为93.40%；而在取0.01时最小，NMI的值为86.73%。在COIL20 数据集中，λA和λC取（1，1）时固定，λE为0.01 时NMI 的最大值93.55%，而随着参数值的增大，NMI的取值范围变化平稳。从图中可以看出，算法对于参数的变化相对较为鲁棒。

图6 RMCGL算法在NGs和COIL20数据集上的参数分析Fig.6 Parameter analysis of RMCGL algorithm on NGs and COIL20 datasets

4 结语

近年来，多视图聚类在许多领域得到了应用。多视图数据比传统的单视图数据提供了更丰富的信息来揭示内部结构，并能获得更好的聚类效果。本文首先简要回顾了多视图聚类算法，然后提出了一种新的基于一致图学习的鲁棒多视图子空间聚类算法RMCGL。该算法通过学习数据的子空间表示来避免原始数据集中噪声的干扰，并基于该表示构建不同视图下的相似度矩阵；同时引入自加权策略，根据不同视图的重要性合理分配视图权重，并构造一个统一的一致图；通过对一致图的拉普拉斯矩阵施加秩约束直接获得聚类结果，而不需要引入额外的聚类步骤。在多个数据集上的实验结果验证了RMCGL算法的有效性，相比其他多视图聚类算法有明显优势。