[机器学习]12 聚类

首先要明确：聚类是无监督学习。

12.1 聚类任务

目标：通过对无标记训练样本的学习来展示其内在规律。其实现的形式是将样本划分为若干个不相交的子集(簇, $c l u s t e r$ )
描述：给定一个训练集 $D = {x_{1}, x_{2}, . . ., x_{m}}$ ，其中 $x_{i} \in R^{n}$ ，聚类将训练集划分为 $k$ 个不相交的簇 $C = {C_{1}, C_{2}, . . ., C_{k}}$ ，其中 $C_{i} \cap C_{j} = \emptyset$ ， $C_{i} \neq \emptyset$ ， $D = \cup_{l = 1}^{k} C_{l}$ ， $i = 1, 2, . . ., k$

似乎没啥好考的，因为后面的算法完全没有用到

距离度量的性质：
- 非负性： $d (x_{i}, x_{j}) \geq 0$
- 同一性： $d (x_{i}, x_{j}) = 0 \Leftrightarrow x_{i} = x_{j}$
- 对称性： $d (x_{i}, x_{j}) = d (x_{j}, x_{i})$
- 直递性： $d (x_{i}, x_{j}) \leq d (x_{i}, x_{k}) + d (x_{k}, x_{j})$
常用距离：
- 欧氏距离： $d i s t (x_{i}, x_{j}) = \sqrt{\sum_{u = 1}^{n} (x_{i u} - x_{j u})^{2}}$
- 曼哈顿距离/街区距离： $d i s t (x_{i}, x_{j}) = \sum_{u = 1}^{n} (x_{i u} - x_{j u})$

这是本章最重要的算法，要求完全掌握，即思想、伪代码、优缺点、应用场景

E = \sum_{i = 1}^{k} \sum_{x \in C_{j}} | | x - μ_{i} | |_{2}^{2}

从 $D$ 中随机选择 $k$ 个样本作为初始均值向量 ${μ_{1}, μ_{2}, \dots, μ_{k}}$ ;
repeat
- 令 $C_{i} = \emptyset (i = 1, 2, \dots, k)$ ;
- for $j = 1, 2, \dots, m$ do (遍历每个样本，更新每个样本所属的簇)
- - 计算样本 $x_{j}$ 与各均值向量 $μ_{i} (i = 1, 2, \dots, k)$ 的距离： $d i s t (x_{j}, μ_{i}) = | | x_{j} - μ_{i} | |_{2}$ ;
- - 根据距离最近的均值向量确定 $x_{j}$ 的簇标记： $λ_{j} = a r g min_{i \in {1, 2, \dots, k}} d i s t (x_{j}, μ_{i})$ ;
- - 将样本 $x_{j}$ 划入相应的簇： $C_{λ_{j}} = C_{λ_{j}} \cup {x_{j}}$ ;
- end for
- for $i = 1, 2, \dots, k$ do
- - 计算新均值向量： $μ_{i}^{'} = \frac{1}{| C_{i} |} \sum_{x \in C_{i}} x$ ;
- - if $μ_{i}^{'} \neq μ_{i}$ then
- - - 将当前均值向量 $μ_{i}$ 更新为 $μ_{i}^{'}$ ;
- - else
- - - 保持当前均值向量不变;
- - end if
- end for
until 当前均值向量均未更新;
return 簇划分 $C = {C_{1}, C_{2}, \dots, C_{k}}$ ;

应该不会详细考