基于自适应学习的多视图无监督特征选择方法

2023-09-27 06:30沈宗鑫黄倩倩黄雁勇
计算机应用 2023年9期
关键词:特征选择集上视图

何 添,沈宗鑫,黄倩倩,黄雁勇*

(1.西南财经大学 统计学院,成都 611130;2.西南交通大学 计算机与人工智能学院,成都 611756)

0 引言

随着信息技术的不断进步和快速发展,各行各业涌现出海量高维数据。有效分析这些数据是数据挖掘和机器学习的一项重要任务。特征选择[1-2]可以消除高维数据中冗余和嘈杂特征带来的负面影响,提升算法执行效率,降低存储成本并提高学习模型的性能和可解释性。近年来,特征选择在许多领域发挥着越来越重要的作用,如模式识别[3-4]、机器学习[5-6]、数据挖掘[7-8]、统计分析[9-10]等。

根据数据来源的不同,特征选择可以分为单视图特征选择和多视图特征选择。多视图特征选择在特征选择过程中使用了多个视图数据,利用了不同视图之间丰富的相关性和互补性信息,使得视图之间起到相互促进和增强的作用。此外,每一个视图数据都具有一定的特征空间,具有特定的统计特性和意义。因此多视图特征选择往往比单视图特征选择有更好的性能。此外,根据标签信息的可用性,特征选择可以分为监督、半监督和无监督特征选择。由于现实应用场景中的数据很大一部分未经标注,这意味着这些数据对于目前的监督学习来说不可用。人工标记数据虽然可以解决部分问题,但通常来说标签难以获得且成本很高。因此,由于缺乏标签信息,无监督特征选择更加实用但也更具挑战性。所以本文主要研究无标签情况下的多视图特征选择问题。

近年来,许多多视图无监督特征选择方法被相继提出。这些方法大致可以分为两类:一类是将多视图数据拼接组合成单视图数据,然后在拼接后的数据上执行传统的单视图特征选择方法,即基于多视图连接的方法。如拉普拉斯评分(Laplacian Score,LapScore)[11]、光谱特征选择(Spectral Feature Selection,SPEC)[12]和最小冗余光谱特征选择(Feature Selection with Minimum Redundancy,MRSF)[13]等。LapScore 用于衡量每个特征保持样本相似性的能力;SPEC提出了一个基于谱理论的通用学习框架来统一无监督和监督特征选择;MRSF 采用嵌入式的方法来处理光谱特征,剔除特征冗余实现特征选择。这类方法虽然通过简单地连接不同的视图解决了多视图特征选择中的一些问题并取得了一定的成功,但没有考虑到不同视图特征空间的差异以及不同视图所提供的信息的互补性;此外,它们增加了特征选择的计算复杂性,甚至可能造成维度灾难。

另一类方法是基于多视图学习的思想直接进行多视图特征选择。如AMFS(Adaptive Multi-view Feature Selection)[14]、MVFS(unsupervised Feature Selection for Multi-View data)[15]和AUMFS(Adaptive Unsupervised Multi-view Feature Selection)[16]等。这类方法通常先进行多视图数据样本的相似性表示得到样本相似矩阵,再考虑光谱空间中相似结构的线性组合,最后实现特征选择。在特征选择过程中,这些方法中的结构相似度矩阵是被预先计算好且保持不变的;但是数据中的噪声和离群点会影响相似结构的可靠性,最终影响特征选择的效果。因此,其他几种基于多视图集成的特征选择方法针对上述情况进行了改进,如自适应协作相似性学习(Adaptive Collaborative Similarity Learning,ACSL)[17]。与AUMFS 通过简单线性组合不同视图的结构相似度矩阵不同,ACSL 通过自适应学习的方式来得到结构相似度矩阵;同时,ACSL 学习了一个稀疏回归模型,该模型将来自不同视图的数据映射到结构相似度矩阵中,利用稀疏模型进行特征选择。ASVW(multi-view unsupervised feature selection with Adaptive Similarity and View Weight)[18]自适应地利用多视图数据,从多视图数据中学习一致相似度矩阵,并采用具有结构稀疏性约束的局部投影来选择重要特征。OMVFS(Online unsupervised Multi-View Feature Selection)[19]通过稀疏学习的非负矩阵分解,将无监督特征选择嵌入到聚类算法中,它进一步结合了图的正则化,以保持局部结构信息,并帮助选择鉴别特征。CGMV-UFS(Consensus learning Guided Multi-View Unsupervised Feature Selection)[20]通过找出聚类指示矩阵之间的差异,有效地获得了高质量的伪标签,用于后续的稀疏特征选择。

然而,上述多视图无监督特征选择方法大多存在这样的问题:样本间的相似度矩阵、不同视图权重矩阵和特征权重矩阵往往是预先定义的。它们往往容易受到数据中噪声和离群点的影响,进而得到的相似结构、视图权重矩阵和特征权重矩阵是不可靠的,不能有效刻画数据间的真实结构以及反映不同视图和特征的重要性,最终导致不能选出有用的特征。为此,本文提出一种基于自适应学习的多视图无监督特征选择(Adaptive Learning-based Multi-view Unsupervised Feature Selection,ALMUFS)方法。将特征选择嵌入进多视图模糊C均值聚类框架中,并且考虑到不同视图和同一视图下不同特征的重要性均存在差异,ALMUFS 自适应地学习视图权重和特征权重,以实现特征选择和同时保证聚类性能;此外,ALMUFS 自适应地学习样本的相似度矩阵来刻画数据的内在几何结构,同时为了实现理想的近邻分配,对相似图的拉普拉斯矩阵施加了秩约束,使得样本的相似矩阵中连通分量个数与聚类数目相等;最后,本文在模型学习过程中引入模糊隶属度矩阵作为统一的伪标签指示矩阵,有效地融合了不同视图之间的信息。在8 个真实数据上的大量实验结果表明,ALMUFS 方法优于其他先进的基线方法。

1 ALMUFS方法

首先对本文使用的符号表示进行介绍;然后详细介绍了本文提出的多视图无监督特征选择(ALMUFS)方法,分别对每个视图中的数据点和特征表示进行加权,并利用拉普拉斯秩约束来得到恰当的近邻分配,从而选择出最具代表性的特征子空间。

1.1 符号表示

在具体介绍ALMUFS 方法之前,首先对本文使用到的符号表示进行说明,如表1 所示。

表1 符号及含义Tab.1 Symbols and their meanings

1.2 基于自适应权重学习的多视图无监督特征选择

本文将特征选择嵌入模糊C均值聚类过程中,在实现特征选择的同时保证了聚类性能。具体地,多视图模糊C均值聚类的目标是选择k个聚类中心,使每个样本到相应簇中心的距离的平方和最小,目标函数如下:

其中:yi是模糊隶属度矩阵Y的第i个行向量;yik表示第i个样本属于第k个簇的概率;是第v个视图中第k个簇的中心;u是模糊因子,用来度量每个簇的关联度。当u=1 时,多视图模糊C均值聚类可以表示为:

其中:diag(λ(v))是一个对角阵,向量λ(v)的元素为对角阵上的对角元;θ、γ是超参数,用来控制信息量并实现不同视图之间的信息融合。

此外,为了实现特征选择,本文在式(4)的基础上添加了特征权重向量的正则化项以控制特征权重向量的稀疏性以及防止过拟合。最后得到了基于视图权重和特征权重自适应学习的多视图无监督特征选择模型:

其中:β是超参数,根据数据的先验知识选择。模型(5)联合执行特征选择与聚类,实现了特征权重与特征权重的自适应学习,有利于选出具有判别性的特征;然而,模型(5)没有刻画数据的局部几何结构,性能受到了一定的限制。接下来,本文将关注于探索数据的局部几何结构来增强上述模型。

1.3 最优近邻分配的自适应图学习

以往的研究表明,发掘数据的局部几何结构对于无监督特征选择来说非常重要[22-23]。现存的方法通常基于谱图理论,通过构造k近邻图的方式来刻画数据的局部几何结构。图构造的关键是计算相似度矩阵,然而大多数方法都是在特征选择之前预定义相似度矩阵,并在特征选择过程中保持不变[24-25]。这使得特征选择模型的性能非常依赖预定的相似图,然而这个预定义的图或许并不是最优的,无法有效地刻画数据的局部几何结构。因此,本文基于流型学习的基本假设:如果两个样本点距离很近,那么它们在对应的嵌入图中的距离也会很近。引入如下自适应相似度矩阵学习模型:

此外,为了使相似图结构获得恰当的近邻分配,即相似图的连通分量等于簇的数量,并且每一个连通分量对应一个簇。根据文献[26],本文对相似度矩阵S(v)的图拉普拉斯矩阵LS(v)施加秩约束,即,Rank(LS)=n-c,如下所示:

其中,η是超参数,通过η的变化能捕获更准确的局部结构信息。

本文将具有最佳近邻分配的自适应相似度矩阵学习模型(8)整合进基于自适应权重学习的多视图无监督特征选择模型(5)中,得到了最终的目标函数,如下所示:

2 模型优化

为了求解目标函数(9),本文设计了一种交替迭代优化算法,将目标函数的求解划分为四个子问题。下面将详细介绍算法的优化过程以及算法收敛性的证明。

2.1 迭代优化

2.1.1 固定其他变量,更新Y

对Y的优化可以转化为对问题(10)的求解。

其中,从ω的更新公式可以看出:一个视图数据越重要或者越有用,这个视图将被分配的权重就越大。

2.1.4 固定其他变量,更新λ(v)

对λ(v)的优化可以转化为对问题(17)的求解。

类似于视图权重ω的更新,为了求解问题(17),由拉格朗日数乘法可以得到:

从式(18)的更新公式可以看出:同一视图下的某个特征越重要或者越有用,那么这个特征将被分配的权重就越大。

总结上述步骤,可以得到ALMUFS 的算法。

算法1 ALMUFS。

2.2 收敛性证明

算法1 的收敛性取决于4 个迭代子步骤。在更新变量Y、S、ω、λ(v)时,对应的每个子问题都是凸的,并且本文得到了每个子问题的闭式解,所以它们的收敛性可以保证。因此,虽然本文所提出的目标函数不是关于变量Y、S、ω、λ(v)的联合凸函数,但采用的迭代优化算法能够保证它们收敛。在实验部分,本文将在真实数据集上绘制优化过程中目标函数的收敛曲线,以进一步说明算法1 的收敛性。

3 实验与结果分析

3.1 实验数据集

为了证明ALMUFS 的有效性,本文在8 个真实数据集上进行了相关实验,表2 总结了这些数据集的详细统计信息。

表2 数据集的统计信息Tab.2 Statistics of datasets

3.2 基线方法

本文将ALMUFS 与6 种无监督特征选择基线方法进行了实验对比,以验证本文方法的有效性。对比方法如下:

All-feature:该方法表示不执行特征选择,采用所有原始特征。

LS(LapScore)[11]:根据特征保留局部结构的能力来选择特征。

ACSL[17]:该方法将协同相似结构学习和多视图无监督特征选择整合到一个统一框架中,并对模型施加了秩限制使协同相似结构具有理想的近邻分配。

ASVM(Adaptive Similarity and View Weight)[18]:该 方法通过学习一个共同的相似矩阵来刻画所有视图的结构,并自适应地学习视图权重。

OMVFS[19]:OMVFS 是一种基于非负矩阵分解的大规模/流数据多视图无监督特征选择方法。

CGMV-UFS[20]:将特征选择嵌入一个基于非负矩阵分解的聚类框架中,为所有视图学习出潜在的特征矩阵,并学习一个共同的聚类指示矩阵来融合所有视图的信息。

3.3 参数设置

所有的实验都是在Matlab 2016a 64 位版本上进行。在ALMUFS 中,超参数α,β,η的取值从{10-3,10-2,10-1,1,10,102,103}中选择;γ的取值从{3,6,9,12,15}中选择;θ的取值从{1,10,100,1 000,10 000}中选择,以上参数的最优组合通过网格搜索得到。参与对比的其他基线方法的超参数根据对应的参考文献来设置。

3.4 评价指标

本文选择了两个常用的聚类评价指标:聚类精度(ACCuray,ACC)和F-measure,作为实验效果的评价标准。

3.4.1 聚类精度(ACC)

给定第j个样本的真实标签gj与它的聚类标签,ACC计算公式如下:

其中:δ(x,y) 为示性函数,当x=y时,δ(x,y)=1,否则δ(x,y)=0;map(⋅)为排列映射函数,用于将聚类标签映射为真实标签。

3.4.2 F-measure

F-measure(Fmeasure)是常用的一个聚类评价标准,在提高精确率和召回率的同时,也希望两者之间的差异尽可能小。此时,可以考虑使用二者的调和平均数作为模型评估指标,即:

其中,P和R分别表示精确率和召回率。ACC 和F-measure 的值越高,代表对应方法的性能越好。

3.5 实验结果分析

本文实验将特征选择率的变化范围设置[0.1,0.9],间隔为0.1。对于不同的特征选择率,运用特征选择方法得到相应的特征子集,然后对特征子集执行k-means 聚类算法30次,并记录均值和标准差。

表3 和表4 展示了当特征选择率为0.4 时,不同特征选择方法在所有数据集上的ACC 和F-measure 结果,其中,*代表本文的ALMUFS 方法在5%的显著性水平上显著优于对比方法。最优结果加粗表示,次优结果用下划线表示。可以看出,ALMUFS 在所有8 个数据集上均取得了最优性能。与次优方法ACSL 和ASVM 相比,ACC 平均提高了8.99 和11.09个百分点,F-measure 平均提高11.87 和13.21 个百分点。

表3 特征选择率为0.4时的ACC结果 单位:%Tab.3 ACC results with feature selection ratio of 0.4 unit:%

表4 特征选择率为0.4时的F-measure 单位:%Tab.4 F-measure results with feature selection ratio of 0.4 unit:%

此外,图1 和图2 分别展示了当特征选择率从0.1 变化到0.9 时,所有方法的ACC 和F-measure 变化情况。可以看出,ALMUFS 在绝大多数情况下都优于其他基线方法。实验结果表明了ALMUFS 的优越性。

图1 不同数据集上的ACC结果Fig.1 ACC results on different datasets

图2 不同数据集上的F-measure结果Fig.2 F-measure results on different datasets

3.6 参数敏感性分析

ALMUFS 算法中有5 个超参数,分别是:α、β、θ、γ、η。本文在Yale 数据集上,进行了参数敏感性实验,并采用ACC 作为评估准则,在其余数据集上的实验效果相似。实验结果如图3 所示,当这5 个超参数变化时,ACC 均没有明显的波动。实验结果表明ALMUFS 对于5 个超参数都不敏感。

图3 不同超参数对ACC的影响Fig.3 Influence of different hyperparameter on ACC

3.7 收敛性分析

本文提出的求解目标函数的算法是迭代形式的,下面将通过实验研究ALMUFS 方法的收敛性。本文在Yale、WikipediaArticles、WebKB 这3 个数据集上进行了收敛性实验,其余数据集上的实验效果相似。实验结果如图4 所示,可以看出本文ALMUFS 收敛速度很快,通常在10 次迭代以内就能达到收敛状态,进一步验证了ALMUFS 的有效性。

图4 ALMUFS在不同数据集上的目标函数值随迭代次数变化Fig.4 Objective function value of ALMUFS varying with number of iterations on different datasets

4 结语

本文提出了一种新的基于自适应学习的多视图无监督特征选择方法ALMUFS,该方法将特征选择嵌入进模糊聚类过程中,在聚类过程中同时实现特征选择。此外,ALMUFS通过自适应的方式学习视图权重向量、特征权重向量和样本相似度矩阵;并且,该方法对样本相似度矩阵的拉普拉斯矩阵施加了秩约束,以确保相似度矩阵中的连通分量的个数与聚类簇数目相等,从而实现恰当的近邻分配;然后通过选择每个视图中的最佳视图和最具代表性的特征空间,得到更加紧凑的低维高质量特征子集;接着,本文开发了一种有效的交替迭代优化的方法来求解目标函数。最后,在8 个真实数据集上的大量实验证明了ALMUFS 的可行性和有效性。

在未来的研究中将把无监督特征选择框架扩展到半监督场景中,即通过利用少量标签数据所提供的判别信息和语义信息来引导特征选择过程,构建面向多视图数据的半监督特征选择方法。

猜你喜欢
特征选择集上视图
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
复扇形指标集上的分布混沌
5.3 视图与投影
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
Kmeans 应用与特征选择
联合互信息水下目标特征选择算法
基于特征选择和RRVPMCD的滚动轴承故障诊断方法