聚类

栏目: 数据库 · 发布时间: 7年前

内容简介:我们的问题为:$$\min _{C_{1}, \ldots, C_{K}} \sum_{k=1}^{K} W\left(C_{k}\right)

我们的问题为:

$$

\min _{C_{1}, \ldots, C_{K}} \sum_{k=1}^{K} W\left(C_{k}\right)

$$

$$

W\left(C_{k}\right)=\frac{1}{\left|C_{k}\right|} \sum_{i, j \in C_{k}}\Vert x_{i}-x_{j}\Vert _{2}^{2}

$$

最优化问题为:

$$

\min _{C_{1}, \ldots, C_{K}} \sum_{k=1}^{K} \frac{1}{\left|C_{k}\right|} \sum_{i, j \in C_{k}}\Vert x_{i}-x_{j}\Vert _{2}^{2}

$$

Centroid

让 \(\mu_{k}=\frac{1}{\left|C_{k}\right|} \sum_{i \in C_{k}} x_{i}\) 为 \( C_{k}\) 的 mean/centroid。

$$

\frac{1}{\left|C_{k}\right|} \sum_{i, j \in \mathcal{C}_{k}}\Vert x_{i}-x_{j}\Vert _{2}^{2}=2 \sum_{i \in C_{k}}\Vert x_{i}-\mu_{k}\Vert _{2}^{2}

$$

那么优化问题可以变为:

$$

\min _{C_{1}, \ldots, C_{K}} \sum_{k=1}^{K}\left\{\sum_{i \in C_{k}}\Vert x_{i}-\mu_{k}\Vert _{2}^{2}\right\}

$$

迭代法

$$

\text { binary matrix } R=\left[r_{n k}\right] \in R^{N \times K}

$$

$$

\text { if } x_{n} \text { is assigned to cluster } k, \text { then }r_{n k}=1 \text { and } r_{n j}=0, j \neq k

$$

目标:

找到 \(\left\{\mu_{k}\right\}\),并把每一个数据点分配到一类,使 objective function 最小化。

$$

J\left(R,\left\{\mu_{k}\right\}\right)=\sum_{n=1}^{N}\left[\sum_{k=1}^{K} r_{n k}\Vert x_{n}-\mu_{k}\Vert ^{2}\right]

$$

  • \(\mu_{k}=\frac{1}{\left|C_{k}\right|} \sum_{i \in C_{k}} x_{i}\) 为 \( C_{k}\) 的 mean/centroid。
  • \(R=\left[r_{n k}\right] \in R^{N \times K}\)

重复以下两步:

  1. step 1:固定 \(\{\mu_{k}\}\),最优化 \(R\)
  2. step 2:固定 \(R\),最优化 \(\{\mu_{k}\}\)

具体如下:

step 1

对于某一个具体的 n,我们选择 \(r_{nj}\) 最小化

$$\sum_{k=1}^{K} r_{n k}\Vert x_{n}-\mu_{k}\Vert ^{2}$$

聚类

也就是说,将 \(x_n\) 分配给最接近的 centroid。

step 2

对于固定的 \(R\), \(J\left(R,\left\{\mu_{k}\right\}\right)\) 是 convex,quadratic 的,因此,将关于 \(u_{k}\) 的梯度设为 0:

$$

2 \sum_{n=1}^{N} r_{n k}\left(\mu_{k}-x_{n}\right)=0 \Rightarrow \mu_{k}=\frac{\sum_{n=1}^{N} r_{n k} x_{n}}{\sum_{n=1}^{N} r_{n k}}

$$

让 \(u_{k}\) 等于属于 cluster k 的所有数据点 \(x_n\) 的均值

聚类

k-means 算法对于异常值十分敏感,因为具有极大值的对象可能会产生严重扭曲的数据分布


以上所述就是小编给大家介绍的《聚类》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

数据库系统实现

数据库系统实现

加西亚-莫利纳(Hector Garcia-Molina)、Jeffrey D.Ullman、Jennifer Widom / 杨冬青、吴愈青、包小源 / 机械工业出版社 / 2010-5 / 59.00元

《数据库系统实现(第2版)》是斯坦福大学计算机科学专业数据库系列课程第二门课的教科书。书中对数据库系统实现原理进行了深入阐述,并具体讨论了数据库管理系统的三个主要成分——存储管理器、查询处理器和事务管理器的实现技术。此外,第2版充分反映了数据管理技术的新进展,对内容进行了扩充,除了在第1版中原有的“信息集成”一章(第10章)中加入了新的内容外,还增加了两个全新的章:“数据挖掘”(第11章)和“数据......一起来看看 《数据库系统实现》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

URL 编码/解码
URL 编码/解码

URL 编码/解码

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具