基于层次划分的密度优化聚类算法

2016-06-28 08:30逄琳刘方爱
计算机应用 2016年6期
关键词:聚类算法

逄琳 刘方爱

摘 要:针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。

关键词:聚类算法;层次划分;最佳聚类数;初始聚类中心;聚类有效性指标

中图分类号: TP301.6 文献标志码:A英文标题

猜你喜欢
聚类算法
一种基于词嵌入与密度峰值策略的大数据文本聚类算法
基于关联规则和复杂系统熵聚类方法分析张学文治疗肝热血瘀证用药规律
数据挖掘算法性能优化的研究与应用
K—Means聚类算法在MapReduce框架下的实现
基于K?均值与AGNES聚类算法的校园网行为分析系统研究
基于改进的K_means算法在图像分割中的应用
大规模风电场集中接入对电力系统小干扰稳定的影响分析
基于弹性分布数据集的海量空间数据密度聚类
基于MapReduce的DBSCAN聚类算法的并行实现
基于暂态特征聚类的家用负荷识别