无监督学习中的聚类(Clustering)与降维(Dimensionality Reduction)是两种核心数据分析技术,其核心理解如下:
一、聚类(Clustering)
1. 核心思想
通过数据内在的相似性,将未标注样本划分为若干互斥的子集(簇),使同类样本高度聚合,异类样本显著分离。
2. 典型算法
- 划分式:K-Means、K-Medoids
- 层次式:AGNES(自底向上)、DIANA(自顶向下)
- 密度式:DBSCAN(基于邻域密度)
- 概率模型:GMM(高斯混合模型)
3. 应用场景
- 客户分群(CRM系统)
- 图像分割(计算机视觉)
- 异常检测(网络安全)
- 文档归类(NLP)
二、降维(Dimensionality Reduction)
1. 核心思想
通过数学变换将高维数据映射到低维空间,保持数据主要特征的同时消除冗余信息,满足”维度灾难”下的计算需求。
2. 典型方法
| 类型 | 线性方法 | 非线性方法 |
|---|---|---|
| 全局结构保持 | PCA(主成分分析) | MDS(多维缩放) |
| 局部结构保持 | LDA(线性判别分析) | t-SNE、UMAP |
3. 核心价值
- 可视化:将高维数据投影至2D/3D空间
- 去噪:过滤无关特征
- 加速计算:降低算法时间复杂度
三、关键区别与联系
| 维度 | 聚类 | 降维 |
|---|---|---|
| 核心目标 | 发现数据分布模式 | 提取数据本质特征 |
| 输出形式 | 离散的类别标签 | 连续的低维表示 |
| 评估指标 | 轮廓系数、Calinski指数 | 重构误差、方差解释率 |
| 典型协同 | 降维后聚类(如PCA+KMeans) | 聚类结果可视化(如t-SNE) |
四、工程实践建议
- 数据预处理:聚类对尺度敏感,需标准化;降维常需中心化
- 维度选择:累计方差贡献率≥85%(PCA)或KL散度稳定(t-SNE)
- 参数调优:肘部法则确定K值(聚类),困惑度调整(t-SNE)
- 组合策略:先通过降维去除噪声,再进行精细化聚类分析
两者共同构成了探索性数据分析(EDA)的基础工具链,在实际应用中常形成”降维→聚类→可视化”的标准分析流程。