聚类

栏目: 数据库 · 发布时间: 5年前

内容简介：我们的问题为：$$\min _{C_{1}, \ldots, C_{K}} \sum_{k=1}^{K} W\left(C_{k}\right)

我们的问题为：

\min _{C_{1}, \ldots, C_{K}} \sum_{k=1}^{K} W\left(C_{k}\right)

W\left(C_{k}\right)=\frac{1}{\left|C_{k}\right|} \sum_{i, j \in C_{k}}\Vert x_{i}-x_{j}\Vert _{2}^{2}

最优化问题为：

\min _{C_{1}, \ldots, C_{K}} \sum_{k=1}^{K} \frac{1}{\left|C_{k}\right|} \sum_{i, j \in C_{k}}\Vert x_{i}-x_{j}\Vert _{2}^{2}

Centroid

让 $\mu_{k}=\frac{1}{\left|C_{k}\right|} \sum_{i \in C_{k}} x_{i}$ 为 $ C_{k}$ 的 mean/centroid。

\frac{1}{\left|C_{k}\right|} \sum_{i, j \in \mathcal{C}_{k}}\Vert x_{i}-x_{j}\Vert _{2}^{2}=2 \sum_{i \in C_{k}}\Vert x_{i}-\mu_{k}\Vert _{2}^{2}

那么优化问题可以变为：

\min _{C_{1}, \ldots, C_{K}} \sum_{k=1}^{K}\left\{\sum_{i \in C_{k}}\Vert x_{i}-\mu_{k}\Vert _{2}^{2}\right\}

迭代法

\text { binary matrix } R=\left[r_{n k}\right] \in R^{N \times K}

\text { if } x_{n} \text { is assigned to cluster } k, \text { then }r_{n k}=1 \text { and } r_{n j}=0, j \neq k

目标：

找到 $\left\{\mu_{k}\right\}$，并把每一个数据点分配到一类，使 objective function 最小化。

J\left(R,\left\{\mu_{k}\right\}\right)=\sum_{n=1}^{N}\left[\sum_{k=1}^{K} r_{n k}\Vert x_{n}-\mu_{k}\Vert ^{2}\right]

$\mu_{k}=\frac{1}{\left|C_{k}\right|} \sum_{i \in C_{k}} x_{i}$ 为 $ C_{k}$ 的 mean/centroid。
$R=\left[r_{n k}\right] \in R^{N \times K}$

重复以下两步：

step 1：固定 $\{\mu_{k}\}$，最优化 $R$
step 2：固定 $R$，最优化 $\{\mu_{k}\}$

具体如下：

step 1

对于某一个具体的 n，我们选择 $r_{nj}$ 最小化

$$\sum_{k=1}^{K} r_{n k}\Vert x_{n}-\mu_{k}\Vert ^{2}$$

也就是说，将 $x_n$ 分配给最接近的 centroid。

step 2

对于固定的 $R$, $J\left(R,\left\{\mu_{k}\right\}\right)$ 是 convex，quadratic 的，因此，将关于 $u_{k}$ 的梯度设为 0：

2 \sum_{n=1}^{N} r_{n k}\left(\mu_{k}-x_{n}\right)=0 \Rightarrow \mu_{k}=\frac{\sum_{n=1}^{N} r_{n k} x_{n}}{\sum_{n=1}^{N} r_{n k}}

让 $u_{k}$ 等于属于 cluster k 的所有数据点 $x_n$ 的均值

k-means 算法对于异常值十分敏感，因为具有极大值的对象可能会产生严重扭曲的数据分布

以上所述就是小编给大家介绍的《聚类》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

深度学习

[美]特伦斯·谢诺夫斯基（Terrence Sejnowski） / 姜悦兵 / 中信出版集团 / 2019-2 / 88

全球科技巨头纷纷拥抱深度学习，自动驾驶、AI医疗、语音识别、图像识别、智能翻译以及震惊世界的AlphaGo，背后都是深度学习在发挥神奇的作用。深度学习是人工智能从概念到繁荣得以实现的主流技术。经过深度学习训练的计算机，不再被动按照指令运转，而是像自然进化的生命那样，开始自主地从经验中学习。本书作者特伦斯·谢诺夫斯基是全球人工智能十大科学家之一、深度学习先驱及奠基者，亲历了深度学习在20世纪......一起来看看《深度学习》这本书的介绍吧!

码农工具

聚类

迭代法

目标：

step 1

也就是说，将 \(x_n\) 分配给最接近的 centroid。

step 2

深度学习

随机密码生成器

HTML 编码/解码

HEX CMYK 转换工具