聚类

栏目: 数据库 · 发布时间: 5年前

内容简介:我们的问题为:$$\min _{C_{1}, \ldots, C_{K}} \sum_{k=1}^{K} W\left(C_{k}\right)

我们的问题为:

$$

\min _{C_{1}, \ldots, C_{K}} \sum_{k=1}^{K} W\left(C_{k}\right)

$$

$$

W\left(C_{k}\right)=\frac{1}{\left|C_{k}\right|} \sum_{i, j \in C_{k}}\Vert x_{i}-x_{j}\Vert _{2}^{2}

$$

最优化问题为:

$$

\min _{C_{1}, \ldots, C_{K}} \sum_{k=1}^{K} \frac{1}{\left|C_{k}\right|} \sum_{i, j \in C_{k}}\Vert x_{i}-x_{j}\Vert _{2}^{2}

$$

Centroid

让 \(\mu_{k}=\frac{1}{\left|C_{k}\right|} \sum_{i \in C_{k}} x_{i}\) 为 \( C_{k}\) 的 mean/centroid。

$$

\frac{1}{\left|C_{k}\right|} \sum_{i, j \in \mathcal{C}_{k}}\Vert x_{i}-x_{j}\Vert _{2}^{2}=2 \sum_{i \in C_{k}}\Vert x_{i}-\mu_{k}\Vert _{2}^{2}

$$

那么优化问题可以变为:

$$

\min _{C_{1}, \ldots, C_{K}} \sum_{k=1}^{K}\left\{\sum_{i \in C_{k}}\Vert x_{i}-\mu_{k}\Vert _{2}^{2}\right\}

$$

迭代法

$$

\text { binary matrix } R=\left[r_{n k}\right] \in R^{N \times K}

$$

$$

\text { if } x_{n} \text { is assigned to cluster } k, \text { then }r_{n k}=1 \text { and } r_{n j}=0, j \neq k

$$

目标:

找到 \(\left\{\mu_{k}\right\}\),并把每一个数据点分配到一类,使 objective function 最小化。

$$

J\left(R,\left\{\mu_{k}\right\}\right)=\sum_{n=1}^{N}\left[\sum_{k=1}^{K} r_{n k}\Vert x_{n}-\mu_{k}\Vert ^{2}\right]

$$

  • \(\mu_{k}=\frac{1}{\left|C_{k}\right|} \sum_{i \in C_{k}} x_{i}\) 为 \( C_{k}\) 的 mean/centroid。
  • \(R=\left[r_{n k}\right] \in R^{N \times K}\)

重复以下两步:

  1. step 1:固定 \(\{\mu_{k}\}\),最优化 \(R\)
  2. step 2:固定 \(R\),最优化 \(\{\mu_{k}\}\)

具体如下:

step 1

对于某一个具体的 n,我们选择 \(r_{nj}\) 最小化

$$\sum_{k=1}^{K} r_{n k}\Vert x_{n}-\mu_{k}\Vert ^{2}$$

聚类

也就是说,将 \(x_n\) 分配给最接近的 centroid。

step 2

对于固定的 \(R\), \(J\left(R,\left\{\mu_{k}\right\}\right)\) 是 convex,quadratic 的,因此,将关于 \(u_{k}\) 的梯度设为 0:

$$

2 \sum_{n=1}^{N} r_{n k}\left(\mu_{k}-x_{n}\right)=0 \Rightarrow \mu_{k}=\frac{\sum_{n=1}^{N} r_{n k} x_{n}}{\sum_{n=1}^{N} r_{n k}}

$$

让 \(u_{k}\) 等于属于 cluster k 的所有数据点 \(x_n\) 的均值

聚类

k-means 算法对于异常值十分敏感,因为具有极大值的对象可能会产生严重扭曲的数据分布


以上所述就是小编给大家介绍的《聚类》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

深度学习

深度学习

[美]特伦斯·谢诺夫斯基(Terrence Sejnowski) / 姜悦兵 / 中信出版集团 / 2019-2 / 88

全球科技巨头纷纷拥抱深度学习,自动驾驶、AI医疗、语音识别、图像识别、智能翻译以及震惊世界的AlphaGo,背后都是深度学习在发挥神奇的作用。深度学习是人工智能从概念到繁荣得以实现的主流技术。经过深度学习训练的计算机,不再被动按照指令运转,而是像自然进化的生命那样,开始自主地从经验中学习。 本书作者特伦斯·谢诺夫斯基是全球人工智能十大科学家之一、深度学习先驱及奠基者,亲历了深度学习在20世纪......一起来看看 《深度学习》 这本书的介绍吧!

随机密码生成器
随机密码生成器

多种字符组合密码

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具