带答案面经分享-L1正则&L2正则

栏目: 数据库 · 发布时间: 7年前

内容简介：重磅干货，第一时间送达正则化也是校招中常考的题目之一，在去年的校招中，被问到了多次：

点击上方“ Python数据科学 ”，选择“星标”公众号

重磅干货，第一时间送达

作者：石晓文

来源：小小挖掘机

正则化也是校招中常考的题目之一，在去年的校招中，被问到了多次：

1、过拟合的解决方式有哪些，l1和l2正则化都有哪些不同，各自有什么优缺点(爱奇艺)

2、L1和L2正则化来避免过拟合是大家都知道的事情，而且我们都知道L1正则化可以得到稀疏解，L2正则化可以得到平滑解，这是为什么呢？

3、L1和L2有什么区别，从数学角度解释L2为什么能提升模型的泛化能力。（美团）

4、L1和L2的区别，以及各自的使用场景（头条）

接下来，咱们就针对上面的几个问题，进行针对性回答！

1、什么是L1正则&L2正则？

L1正则即将参数的绝对值之和加入到损失函数中，以二元线性回归为例，损失函数变为：

带答案面经分享-L1正则&L2正则

L2正则即将参数的平方之和加入到损失函数中，以二元线性回归为例，损失函数变为：

带答案面经分享-L1正则&L2正则

2、L1正则&L2正则的区别是什么？

二者的区别的话，咱们总结主要有以下两点，最主要的还是第二点：

1、L1正则化是指在损失函数中加入权值向量w的绝对值之和，即各个元素的绝对值之和，L2正则化指在损失函数中加入权值向量w的平方和。

2、L1的功能是使权重稀疏，而L2的功能是使权重平滑。

3、L1正则为什么可以得到稀疏解？

这一道题是面试中最容易考到的，大家一定要理解掌握！这一部分的回答，在《百面机器学习》中给出了三种答案：

3.1 解空间形状

这是我们最常使用的一种答案，就是给面试官画如下的图：

带答案面经分享-L1正则&L2正则

L2正则化相当于为参数定义了一个圆形的解空间，而L1正则化相当于为参数定义了一个菱形的解空间。L1“棱角分明”的解空间显然更容易与目标函数等高线在脚点碰撞。从而产生稀疏解。

3.2 函数叠加

我们考虑一维的情况，横轴是参数的值，纵轴是损失函数，加入正则项之后，损失函数曲线图变化如下：

带答案面经分享-L1正则&L2正则

可以看到，在加入L1正则项后，最小值在红点处，对应的w是0。而加入L2正则项后，最小值在黄点处，对应的w并不为0。

为什么呢？加入L1正则项后，目标函数变为L(w)+C|w|，单就正则项部分求导，原点左边的值为-C，原点右边的值为C，因此，只要原目标函数的导数绝对值|L'(w)|

加入L2正则项后，目标函数变为L(w)+Cw 2 ，只要原目标函数在原点处的导数不为0，那么带L2正则项的目标函数在原点处的导数就不为0，那么最小值就不会在原点。因此L2正则只有见效w绝对值的作用，但并不能产生稀疏解。

3.3 贝叶斯先验

从贝叶斯角度来看，L1正则化相当于对模型参数w引入了拉普拉斯先验，L2正则化相当于引入了高斯先验(为什么我们在后面详细解释)。我们来看一下高斯分布和拉普拉斯分布的形状：

带答案面经分享-L1正则&L2正则

可以看到，当均值为0时，高斯分布在极值点处是平滑的，也就是高斯先验分布认为w在极值点附近取不同值的可能性是接近的。但对拉普拉斯分布来说，其极值点处是一个尖峰，所以拉普拉斯先验分布中参数w取值为0的可能性要更高。

4、从数学角度解释L2为什么能提升模型的泛化能力

这里主要给出两篇博客作为参考：
https://www.zhihu.com/question/35508851
https://blog.csdn.net/zouxy09/article/details/24971995

5、为什么说“L1正则化相当于对模型参数w引入了拉普拉斯先验，L2正则化相当于引入了高斯先验”？

这一部分咱们小小推导一下，嘻嘻，如果一看数学就头大的同学，可以跳过此处。

在贝叶斯估计中，我们要求解的是参数θ的后验概率最大化：

带答案面经分享-L1正则&L2正则

在最后一项的分子中P(X i |θ)和分母都是一个常数，因此，上式可以继续化简：

带答案面经分享-L1正则&L2正则

所以贝叶斯学派估计是使下面的式子最小化：

带答案面经分享-L1正则&L2正则

关于第一项，假设我们做的是一元线性回归，那么求解过程如下：

带答案面经分享-L1正则&L2正则

第二项，咱们就得分类讨论了，如果θ服从的是0均值的高斯分布，为了和上面的方差所区分，这里咱们用alpha来表示，那么有：

带答案面经分享-L1正则&L2正则

所以，最终可以得到：

带答案面经分享-L1正则&L2正则

我们把与θ无关的情况去掉，便得到：

带答案面经分享-L1正则&L2正则

你可能觉得，alpha不是θ的方差么，请注意，这里是先验分布，我们可以任意指定alpha的值，所以去掉也是可以的。

同理，我们可以得到当先验是拉普拉斯分布时的情况。

带答案面经分享-L1正则&L2正则

专注于数据科学领域的知识分享

欢迎在文章下方留言与交流

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

网站重构（第3版）

[美] Jeffrey Zeldman、[美] Ethan Marcotte / 傅捷、祝军、李宏 / 电子工业出版社 / 2011-3 / 59.00元

《网站重构:应用Web标准进行设计(第3版)》内容简介：畅销书作家、设计师、网页标准教父jeffrey zeldman再次更新了他经典的、颠覆行业的指南书。这已经是《网站重构:应用Web标准进行设计(第3版)》的第3版了,此次更新基本涵盖了随着环境和技术的变化,web标准所面临的挑战以及因此而发生的改善。第3版让基于标准的设计思想更加清晰,更加易于理解,帮助你在这个领域中保持聪明和领先。 ......一起来看看《网站重构（第3版）》这本书的介绍吧!

码农工具