吴恩达机器学习系列20:K - 均值算法

栏目: 数据库 · 发布时间: 4年前

内容简介:它会将这个数据集划分成两类,每一个绿圈就是一类。

在无监督学习中,我们会把没有标签的数据集交给算法,让它自动地发现数据之间的关系, 聚类算法( Clustering algorithm 就是一种无监督学习算法。它会自动地将无标签的数据集进行分类,如下图:

吴恩达机器学习系列20:K - 均值算法

它会将这个数据集划分成两类,每一个绿圈就是一类。

在聚类算法中,最常见的就是 K-均值算法( K-means algorithm ,我们先来看看这个算法在下面这个数据集中是如何进行工作的。

吴恩达机器学习系列20:K - 均值算法

如果将数据集划分成两类的话,第一步随机选取两个点作为 聚类中心 (通常不是这么选择,为了更方便的理解,先这么选,在后面我会告诉你正确应该如何去选择)

吴恩达机器学习系列20:K - 均值算法

对于每一个样本点,离哪一个聚类中心近就会被染成相应的颜色,划归成相同的一类:

吴恩达机器学习系列20:K - 均值算法

然后每一类都会计算出离那些数据集最近的一个位置,将聚类中心移动到那个位置:

吴恩达机器学习系列20:K - 均值算法

之后再进行染色:

吴恩达机器学习系列20:K - 均值算法

再移动,再染色,再移动,再染色,再移动。。。(人类的本质是什么 )不断地进行循环,直到聚类中心不再移动为止:

吴恩达机器学习系列20:K - 均值算法

现在就成功地划分出两类不同的数据集了。

再回过头来看 K-均值算法( K-means algorithm :它需要传入两个参数,需要 聚类的数量 K 训练集

吴恩达机器学习系列20:K - 均值算法

一开始,会根据传入聚类的数量 K 随机初始化聚类中心,然后不断地去循环内部的两个循环:

吴恩达机器学习系列20:K - 均值算法

红色部分表示每一个样本点选择离它最近的聚类中心染成相应的颜色,也就是簇分配,我们将每一个样本点划分到所属的聚类中心。实际上就是最小化这个代价函数:

吴恩达机器学习系列20:K - 均值算法

蓝色部分表示不断地去移动聚类中心使它到跟它颜色相同的样本点的距离最小。

最后来补充一下如何初始化聚类中心。之前说过,随机位置初始化这种方法是不可取的,正确的操作是随机选取样本点所在的位置作为聚类中心,为了避免陷入到局部最优解中,我们要多次选取,挑选一个代价函数最小的作为我们的选择,这样就会达到最优的效果。

ps. 本篇文章是根据吴恩达机器学习课程整理的学习笔记。如果想要一起学习机器学习,可以关注微信公众号「 SuperFeng 」,期待与你的相遇。

吴恩达机器学习系列20:K - 均值算法


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

遗传算法

遗传算法

王小平 / 西安交通大学出版社 / 2002-1 / 40.00元

《遗传算法:理论应用与软件实现》全面系统地介绍了遗传算法的基本理论,重点介绍了遗传算法的经典应用和国内外的新发展。全书共分11章。第1章概述了遗传算法的产生与发展、基本思想、基本操作以及应用情况;第2章介绍了基本遗传算法;第3章论述了遗传算法的数学基础;第4章分析了遗传算法的多种改进方法;第5章初步介绍了进化计算理论体系;第6章介绍了遗传算法应用于数值优化问题;第7章介绍了遗传算法应用于组合优化问......一起来看看 《遗传算法》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

MD5 加密
MD5 加密

MD5 加密工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具