6分钟了解所有机器学习模型

栏目: IT技术 · 发布时间: 6年前

原文出自Medium

作者： Terence Shin

京东云开发者社区编译

6分钟了解所有机器学习模型

所有机器学习模型都可以分为 有监督 的或 无监督 的。如果模型是监督模型，则将其再分类为回归模型或分类模型。我们将介绍这些术语的含义以及下面每个类别中对应的模型。

6分钟了解所有机器学习模型

监督学习模型

监督学习涉及基于示例输入-输出对学习将输入映射到输出的功能。

例如，如果我有一个包含两个变量的数据集，即年龄（输入）和身高（输出），那么我可以实现一个监督学习模型，以根据一个人的年龄预测其身高。

6分钟了解所有机器学习模型

监督学习示例

重申一下，在监督学习中，有两个子类别：回归和分类。

回归模型

在回归模型中，输出是连续的。以下是一些最常见的回归模型类型。

-线性回归

6分钟了解所有机器学习模型线性回归示例

线性回归的概念就是简单地找到一条最适合数据的直线。线性回归的扩展包括多元线性回归（例如，找到最佳拟合的平面）和多项式回归（例如，找到最佳拟合的曲线）。

-决策树

6分钟了解所有机器学习模型图片来自Kaggle

决策树是一种普遍应用的模型，常用于运筹学、战略计划和机器学习。上方的每个正方形称为一个节点，你拥有的节点越多，决策树（通常）将越准确。做出决策的决策树的最后节点称为树的叶子。决策树直观且易于构建，但在准确性方面稍有不足。

-随机森林

随机森林是一种基于决策树的整体学习技术。随机森林涉及使用原始数据通过“自举法”（B ootstrapping）得到的数据集创建多个决策树，并在决策树的每个步骤中随机选择变量的子集。然后，模型选择每个决策树的所有预测的模式。这有什么意义呢？通过依靠“多数决定”模型（ ‘Majority Wins’ Model），它降低了单个树出错的风险。

6分钟了解所有机器学习模型

如上图所示，如果我们只创建一个决策树，那么第三个决策树，它的预测值将是0。但是，如果我们依靠所有4个决策树的模式，则预测值为1。这就是随机森林的力量。

-神经网络

6分钟了解所有机器学习模型神经网络的视觉表示

神经网络是一种受人脑启发的多层模型。就像我们大脑中的神经元一样，上面的圆圈代表一个节点。蓝色的圆圈代表输入层，黑色的圆圈代表隐藏层，绿色的圆圈代表输出层。隐藏层中的每个节点代表特定输入的一个函数，最终生成绿色圆圈中的输出。

分类模型

在分类模型中，输出是离散的。以下是一些最常见的分类模型类型。

-逻辑回归

逻辑回归类似于线性回归，但用于模拟有限数量结果的概率，通常是两个。在对结果的概率建模时，使用逻辑回归而不是线性回归的原因有很多( 详情可查看：https://stackoverflow.com/questions/12146914/what-is-the-difference-between-linear-regression-and-logistic-regression )。本质上，是以输出值只能在0到1之间（见下图）的方式创建逻辑方程。

6分钟了解所有机器学习模型

-支持向量机

支持向量机是一种监督分类技术，实际使用上这种方法可能会非常复杂，但在最基本的级别上却非常直观。

假设有两类数据。支持向量机将在两类数据之间找到一个超平面或边界，以使两类数据之间的余量最大化（参考下图）。有许多平面可以将两个类别分开，但是只有一个平面可以使两个类别之间的边距或距离最大化。

6分钟了解所有机器学习模型

-朴素贝叶斯

朴素贝叶斯（Naive Bayes）是数据科学中另一个通用的分类器。它背后的思想是由贝叶斯定理驱动的:

6分钟了解所有机器学习模型

尽管对朴素贝叶斯（Naive Bayes）做出了许多看起来不太实际的假设（因此将其称为”Naive“），但事实证明，它在大多数情况下都是可执行的，并且构建起来也相对较快。

如果您想了解更多有关它们的信息，详情可参见：https://towardsdatascience.com/naive-bayes-classifier-81d512f50a7c

决策树，随机森林，神经网络……这些模型遵循与先前解释相同的逻辑。唯一的区别是其输出是离散的而不是连续的。

无监督学习模型

与监督学习不同的是，无监督学习被用来从输入数据中推断和发现模式，而不需要参考标记的结果。无监督学习的两种主要方法是聚类和降维。

6分钟了解所有机器学习模型

聚类模型

6分钟了解所有机器学习模型

图片来自GeeksforGeeks

聚类是一种无监督学习的技术，它涉及对数据点的分组或聚类。通常用于客户细分、欺诈检测和文档分类等场景。

常见的聚类技术包括k均值聚类、分层聚类、均值漂移聚类和基于密度的聚类。尽管每种技术在寻找聚类时都有不同的方法，但它们都旨在实现同一目标。

降维模型

降维是通过获取一组主变量来减少所考虑的随机变量数量的过程[2]。简单地说，就是减少特性集的维数的过程(更简单地说，就是减少数据集中的特征数量)。 大多数降维技术可以分为特征消除技术和特征提取技术。

主成分分析模型（PCA）

从最简单的意义上讲，PCA涉及将较高维度的数据（例如3维）投影到较小的空间（例如2维）。这样会导致数据维度较低（2维而不是3维），同时将所有原始变量保留在模型中。

当然，如果你想要深入学习和了解某种特定模型，都将面临更多的复杂问题，但对每一种机器学习算法的工作原理有一个基本的了解，对你的研究一定会有所帮助。

参考文献：

[1] Stuart J. Russell, Peter Norvig, Artificial Intelligence: A Modern Approach (2010), Prentice Hall

[2] Roweis, S. T., Saul, L. K., Nonlinear Dimensionality Reduction by Locally Linear Embedding (2000), Science

原文链接： https://towardsdatascience.com/all-machine-learning-models-explained-in-6-minutes-9fe30ff6776a

以上信息来源于网络，由“京东智联云开发者”公众号编辑整理，

不代表京东智联云立场。

6分钟了解所有机器学习模型

以上所述就是小编给大家介绍的《6分钟了解所有机器学习模型》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

系统分析与设计方法

惠滕 / 孙慧、肖刚 / 机械工业出版社 / 2004-9 / 69.00元

本书是介绍信息系统分析和设计原理、方法、技术、工具和应用的力作，自问世以来，广受欢迎，以至于一版再版，延续至今。本书采用一个完整的案例研究，以整个信息系统构件（基于Zachman框架）和信息系统开发生命周期（FAST方法学）为主线，详细探讨了系统开发生命周期的前期、中期和后期以及跨生命周期的活动。另外，书中第一章都提供了大量的练习题、讨论题、研究题和小型案例，以加深读者对书中所述理论的实际应用和......一起来看看《系统分析与设计方法》这本书的介绍吧!

码农工具

6分钟了解所有机器学习模型

-逻辑回归

-支持向量机

-朴素贝叶斯

系统分析与设计方法

JS 压缩/解压工具

在线进制转换器

html转js在线工具