注意事项
t-SNE结果中的距离和密度没有意义,只能用于观察聚类结构。不同类别之间的距离大小不能作为相似度的衡量标准。
高维数据的非线性降维可视化
t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种非线性降维技术, 特别适合将高维数据降维到2D或3D进行可视化。它通过保持数据点之间的局部相似性关系, 将高维空间中相似的点在低维空间中也放在一起。
计算点之间的相似度,使用高斯分布将距离转换为概率分布
使用t分布计算低维空间中的相似度,避免拥挤问题
| 参数 | 说明 | 建议值 |
|---|---|---|
| n_components | 降维后的维度 | 通常设为2或3 |
| perplexity | 困惑度,控制局部/全局结构平衡 | 通常5-50,默认30 |
| learning_rate | 学习率 | 通常10-1000 |
| n_iter | 迭代次数 | 通常250-1000 |
| random_state | 随机种子 | 固定值以复现结果 |
| 特性 | t-SNE | PCA |
|---|---|---|
| 类型 | 非线性降维 | 线性降维 |
| 计算复杂度 | O(n²),较慢 | O(n),较快 |
| 保持结构 | 局部结构 | 全局方差 |
| 可解释性 | 坐标无明确意义 | 主成分可解释 |
| 新数据投影 | 不支持 | 支持transform |
| 主要用途 | 可视化 | 降维、特征提取 |
t-SNE结果中的距离和密度没有意义,只能用于观察聚类结构。不同类别之间的距离大小不能作为相似度的衡量标准。
关注局部结构,可能形成多个小簇
平衡局部与全局,最常用设置
关注全局结构,簇更集中