[机器学习]13 降维
没啥特别值得聊的,同样不是考试重点
13.1 K近邻学习(K Nearest Neighbor, KNN)
可以说,这就是根据训练集的分布直接预测。
13.1.1 算法流程
- 对于给定的训练样本,以及某种距离度量,在训练集中找到与其最近的k个样本。
- 若分类问题,则类别由这k个样本通过投票法确定。
- 若回归问题,则预测结果由这k个样本的平均值确定。
可以说非常的简单,并且没有明显的“学习”过程。对于这种不需要显式训练过程的学习算法,称为“懒惰学习”(lazy learning),与之相反的,前面学过的大多数都属于“急切学习”(eager learning)。
13.1.2 低维嵌入
- 通常来说,我们的特征向量都是个维度较高的向量,若要满足KNN的要求,样本分布必须足够稠密,且这个密度要求随维度升高而呈指数级上升。在高维情况下数据样本系数、距离计算困难等问题被称为“维数灾难”。
- 缓解这一问题的方法就是降维,就是通过某种数学变换,将高维空间中的原始数据变换为一个低维空间中的数据,同时尽可能的保持原有的数据特征。这种变换被称为“嵌入(embedding)”。
- 降维的方法有很多,多维缩放(MDS)和主成分分析(PCA)就是很常用的两种。
13.2 多维缩放(MDS)& 13.3 主成分分析(PCA)
方法 | 原理 | 效果 | 假设 |
---|---|---|---|
MDS | 计算样本之间的距离,然后将这些距离映射到低维空间中,使得映射后的样本之间的距离在低维空间中尽量保持与高维空间中的距离相似 | 保持样本之间的距离关系,尽可能地保留原始数据的结构信息 | 样本之间的距离可以反映它们的相似性或差异性,即距离越近的样本越相似,距离越远的样本越不相似 |
PCA | 将原始数据投影到新的特征空间中,选择投影后具有最大方差的方向作为主成分。主成分是原始特征的线性组合,它们是数据中包含的最重要的信息。PCA通过保留方差最大的主成分,实现对数据的降维 | 减少特征的维度,同时保留尽可能多的原始数据的信息 | 高维数据中的信息主要集中在少数几个主成分上,且主成分之间应该是正交的 |
Extra13-整理
- K近邻学习算法的大致思想
- MDS和PCA分析原理、效果、假设