无监督学习中的聚类(Clustering)与降维(Dimensionality Reduction)

无监督学习中的聚类(Clustering)与降维(Dimensionality Reduction)是两种核心数据分析技术,其核心理解如下:


一、聚类(Clustering)

1. 核心思想

通过数据内在的相似性,将未标注样本划分为若干互斥的子集(簇),使同类样本高度聚合,异类样本显著分离

2. 典型算法

  • 划分式:K-Means、K-Medoids
  • 层次式:AGNES(自底向上)、DIANA(自顶向下)
  • 密度式:DBSCAN(基于邻域密度)
  • 概率模型:GMM(高斯混合模型)

3. 应用场景

  • 客户分群(CRM系统)
  • 图像分割(计算机视觉)
  • 异常检测(网络安全)
  • 文档归类(NLP)

二、降维(Dimensionality Reduction)

1. 核心思想

通过数学变换将高维数据映射到低维空间,保持数据主要特征的同时消除冗余信息,满足”维度灾难”下的计算需求。

2. 典型方法

类型线性方法非线性方法
全局结构保持PCA(主成分分析)MDS(多维缩放)
局部结构保持LDA(线性判别分析)t-SNE、UMAP

3. 核心价值

  • 可视化:将高维数据投影至2D/3D空间
  • 去噪:过滤无关特征
  • 加速计算:降低算法时间复杂度

三、关键区别与联系

维度聚类降维
核心目标发现数据分布模式提取数据本质特征
输出形式离散的类别标签连续的低维表示
评估指标轮廓系数、Calinski指数重构误差、方差解释率
典型协同降维后聚类(如PCA+KMeans)聚类结果可视化(如t-SNE)

四、工程实践建议

  1. 数据预处理:聚类对尺度敏感,需标准化;降维常需中心化
  2. 维度选择:累计方差贡献率≥85%(PCA)或KL散度稳定(t-SNE)
  3. 参数调优:肘部法则确定K值(聚类),困惑度调整(t-SNE)
  4. 组合策略:先通过降维去除噪声,再进行精细化聚类分析

两者共同构成了探索性数据分析(EDA)的基础工具链,在实际应用中常形成”降维→聚类→可视化”的标准分析流程。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

滚动至顶部