统计学习，机器学习与深度学习概念的关联与区别

栏目: 数据库 · 发布时间: 7年前

内容简介：简单总结来说：1. 机器学习与统计学习有较大的Overlab，或者说机器学习是建立在统计学习的基础之上；2. 统计学习是theory-driven，对数据分布进行假设，以强大的数学理论支撑解释因果，注重参数推断（Inference）；

简单总结来说：

1. 机器学习与统计学习有较大的Overlab，或者说机器学习是建立在统计学习的基础之上；

2. 统计学习是theory-driven，对数据分布进行假设，以强大的数学理论支撑解释因果，注重参数推断（Inference）；

3. 机器学习是data-driven，依赖于大数据规模预测未来，弱化了收敛性问题，注重模型预测（Prediction）；

4. 深度学习是机器学习的一个子领域，特征提取更依赖于隐层模型，解释性弱，趋于黑盒子。

具体阐述如下：

深度学习是机器学习的一个子领域

一般来讲，主流观点认为机器学习包括深度学习，即基于神经网络的深度学习是机器学习的一种，如图1所示。这点大家没有什么质疑，那么统计学习与机器学习存在什么关联呢？是否为同一个概念呢。

图1 [图片来自网络，侵删]

机器学习建立在统计学习基础之上

李航老师在2012年出版过一本《统计学习方法》的图书，如图2所示。图书内容包含了朴素贝叶斯，支持向量机，隐马尔可夫模型等有监督学习方法，以及K均值、层次聚类等无监督学习方法。可以看到与传统机器学习内容基本一致，而且在今年第二版简介中提到“统计学习方法即机器学习方法，…”[1]。因此，可以说统计学习在某种场合下与机器学习概念基本一致。统计学习与经典机器学习方法有较强的关联性。2012年之前，机器学习领域学者入门的一本宝典是Trevor Hastie于2009年出版的《The Elements of Statistical Learning》。统计学专家Aleks Jakulin在Quora上针对“统计学习与机器学习区别[3]”的问题中简单答道：

“机器学习是人工智能领域人员做数据分析，数据挖掘是数据库领域人员做数据分析，统计学习是统计学领域人员做数据分析”

获得最高的认可度。该问题下获得第二认可度的回答是来自斯坦福的统计学研究生Giuseppe Paleologo，同样认为：

“统计学习与机器学习本质上是一致的（Essentially Equivalent），一些显而易见的区别是，机器学习领域发展迅速，学术会议影响力大，而统计学习注重理论推演，学术期刊影响力大。机器学习专家来自CS/EE专业，而统计学习专家来自Stat/Math专业”。CMU统计学大神Larry Wasserman教授于2012年6月写过一篇博文《Statistics Versus Machine Learning》[4]简短的回答是：两者没有什么区别，都是研究如何从数据中学习。目前这两个领域已经越来越同化，相互借鉴和启发想法。

图2. 李航老师2012年出版的统计学习方法（李航老师亲笔签名~）

图3. 机器学习入门教材

然而，严谨地讲，混淆机器学习和统计学习两个概念会被认为是一种过于简单的表述，不太合理。主流更倾向于接受，机器学习方法是建立在统计学习基础之上的。

寻找“上帝函数”的两种套路：理解和预测

如下大部分观点来自甚至直接摘自[2]。不管是统计学习，机器学习还是深度学习，数据分析员、工程师以及科学家都在追求一个终极梦想：找到或者能够无限接近一个“上帝函数”- 一个能够完美利用数据解决现实各种问题的模型或者方法。

那么，这样的“上帝函数”有什么特点呢？我们说学习的目的无外乎两点：理解和预测，所以我们期盼它能拥有两个能力或者说两个必要条件：解释因果和预测未来。我需要知道问题的本质是什么，形成我们看到的结果的推动力究竟是什么（我是谁？我从哪里来？），这是因果分析；未来事物的发展会怎么样，是否按照某一个模式（我要到哪里去？)，这是预测分析。

统计学习以强大的数学理论支撑解释因果

统计学习依托背后的数学理论，在远早于机器学习大爆发的这十年，率先从解释因果的能力的角度，努力寻找上帝函数。[2]的观点认为，统计学习里最重要的两个部分就是回归分析和假设检验。其他的方法或者技术在统计学习这个大框架下，最终也是为了这两者服务的。回归分析提供了解释因果的武器，假设检验则给这项武器装上了弹药。单纯的线性回归用最小二乘法求解逼近事实的真相，再使用显著性检验，检测变量的显著性、模型的显著性、模型的拟合精度。当然是否属于线性，也可以使用假设检验的方法检测。非线性回归的问题，使用极大似然估计或者偏最小二乘回归求解模型，后续的显著性检验仍然是一样的思路。显著性检验有它的局限性，这本身是由统计学习的一些限定假设引起的，在没有更强大的解释因果的方法框架出现前，它依然是解释因果的第一选择。虽然显得粗糙，但是能用。

从逻辑回归模型的角度来理解统计学习。从统计的方法论来看，逻辑回归脱胎于目标变量属于binary分布的非线性模型。所有的回归问题可以归结为确定稳定统计量（比如目标变量的期望或者中位值）和解释变量的函数关系。这种函数关系在目标变量服从指数分布族时，可以推导出它的结构，我们只需再求解结构中的未知参数即可。这种结构被称之为sigmoid函数，在信息学里面经常能用到。那么之所以从统计的角度逻辑回归可以得到严谨的数学解释和推断，全依赖于服从分布这个强假设。在这个假设下发展出的一整套理论，提供了现在这个通过数据学习世界的初级阶段，最优的解释因果框架。

机器学习依赖于大数据规模预测未来

我们再从逻辑回归出发来看看机器学习。机器学习，连带属于它的深度学习或强化学习，天生是为了解决大数据下的预测能力而提出并且发展的。目前最火热的图像识别、语音识别，包括金融领域里的借贷风险识别，为机器学习的发展提供了极其丰富的土壤- 极其大的数据量和极其多的（且极其稀疏的）数据特征。而众所周知的是，传统的回归分析在处理这种场景下的问题，收敛速度和预测精度都无法达到满意的程度。求解回归模型并非线性问题，在模型训练阶段只能在算法迭代过程中使用分布式系统提高运算速度，算法速度的提高受到限制。高维数据中经常碰到的稀疏问题，在回归模型中需要大量的预处理，也很难保证算法最后的收敛和估计精度。另一方面，逻辑回归可以看作是神经网络算法的一个特例- 删去隐含层，输入层和输出层直接用sigmoid函数连接。而加入了隐含层，通过参数调优，在原本逻辑回归的框架下，能够大大提高处理大样本，高稀疏的数据分类问题。虽然对于我们来说， 隐含层输出的特征依然类似于上帝的选择 – 机器根据训练过程中已有的输入和输出信息，得到了比人工选择更加优秀的数据特征，在最终的模型预测能力上大大胜过了原有的特征选择。

统计学习与机器学习的优势与劣势

在统计学习理论中，有这么一种妥协- bias – variance tradeoff，指的是我们在寻找一个统计估计量来接近真实值时，考虑到所拥有数据的健康程度，在估计精度和估计可信度之间需要做出平衡。打个比方，要得到偏离度很小的估计量必然会牺牲一部分可信度。而如果看重可信度，那么我们得到的估计量可能会和真实值有较大偏差。

这也是我们在逼近上帝函数的过程中遇到的问题。 统计推断（ Inference ）重解释，机器学习重预测（Prediction ）。在小样本下，逻辑回归作为基础的线性分类器预测效果通常不比神经网络和其他ensembled算法差，且解释能力更强。当数据量越大，神经网络的预测能力就越强大，类似回归的统计推断方法越力不从心。在样本量不大的情况下，我们往往会比较重视模型的解释能力，因为数据量有限，特征之间是否有相关性不难发现，特征选择也只是在较少的维度下进行，模型的预测能力在我们的可控范围内不难做到最好。而在样本量大到超过我们的可控范围的情况下，预测能力是我们更看重的。因为这时，特征选择和特征间的相关性检测超过了我们的能力并且会极大伤害到我们的运算速度，牺牲特征的相关性检测，间接地等于放弃了模型的解释能力。从这个角度来讲，现在这个阶段，我们并没有一个很好的同时满足上帝函数两个必要条件的并且逼近上帝函数的统计或机器学习模型。模型的选择没有最好的，只有最合适的。脱离业务背景和业务需求，单纯追求算法速度或者拟合精度，就都是舍本逐末。

深度学习与传统机器学习的对比

相比传统机器学习，深度学习最直观区别是在加深了隐含层由模型自动抽取特征，参数量大，训练时间长，弱化了解释性，趋向于黑盒子，对数据依赖性更强，更擅长处理高维度大数据。

图4. 机器学习与深度学习对比示意图，来自[5]

本文出自：http://jacoxu.com/statisticandmachinelearning

[1] 统计学习方法第二版（豆瓣）：https://book.douban.com/subject/33437381/

[2] 找到上帝的两种套路 – 聊聊统计学习和机器学习：https://www.sohu.com/a/132297224_667634

[3] 统计学习与机器学习区别 – https://www.quora.com/What-is-the-difference-between-statistics-and-machine-learning

[4] http://normaldeviate.wordpress.com/2012/06/12/statistics-versus-machine-learning-5-2/

[5] 机器学习与深度学习区别：https://blog.csdn.net/thisinnocence/article/details/81294600

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Programming Collective Intelligence

Toby Segaran / O'Reilly Media / 2007-8-26 / USD 39.99

Want to tap the power behind search rankings, product recommendations, social bookmarking, and online matchmaking? This fascinating book demonstrates how you can build Web 2.0 applications to mine the......一起来看看《Programming Collective Intelligence》这本书的介绍吧!

码农工具

统计学习，机器学习与深度学习概念的关联与区别

Programming Collective Intelligence

HTML 压缩/解压工具

XML 在线格式化

RGB HSV 转换