精选机器学习中的数学原理——过拟合、正则化与惩罚函数

爱睡觉的咋

发布时间 2023.11.08阅读数 855 评论数 0

一、过拟合
之前我们提到过的模型只能拟合训练数据的状态被称为过拟合，英文是 overﬁtting。记得在学习回归的时候，过度增加函数 fθ(x)的次数会导致过拟合。过拟合不止在回归时出现，在分类时也经常发生，我们要时常留意它。
避免过拟合有以下方法：

增加全部训练数据的数量
使用简单的模型
正则化
首先，重要的是增加全部训练数据的数量。之前我也讲过，机器学习是从数据中学习的，所以数据最重要。另外，使用更简单的模型也有助于防止过拟合。

二、正则化
2.1 正则化的方法
还记得我们在讲解回归的时候提到的目标函数吗？

我们要向这个目标函数增加下面这样的正则化项：

那么现在的E(θ)就变为：

我们要对这个新的目标函数进行最小化，这种方法就称为正则化。
m 是参数的个数，不过一般来说不对 θ0 应用正则化。所以仔细看会发现 j 的取值是从 1 开始的。也就是说，假如预测函数的表达式为 fθ(x) = θ0 + θ1x + θ2x2，那么 m = 2 就意味着正则化的对象参数为 θ1 和 θ2，θ0 这种只有参数的项称为偏置项，一般不对它进行正则化。λ 是决定正则化项影响程度的正的常数。这个值需要我们自己来定。

2.2 正则化的效果
光看表达式可能不容易理解。我们结合图来想象一下吧:首先把目标函数分成两个部分。

C(θ)是本来就有的目标函数项，R(θ) 是正则化项。C(θ)和R(θ)相加之后就是新的目标函数，所以我们实际地把这两个函数的图形画出来，加起来看看。不过参数太多就画不出图来了，所以这里我们只关注 θ1。而且为了更加易懂，先不考虑 λ。
我们先从C(θ) 开始画起，不用太在意形状是否精确。在讲回归的时候，我们说过这个目
标函数开口向上，还记得吗？所以，我们假设它的形状是这样的：

从图中马上就可以看出最小值在哪里，是在θ1 = 4.5 附近。

从这个目标函数在没有正则化项时的形状来看，θ1 = 4.5 附近是最小值。接下来是 R(θ)，是过原点的简单二次函数。

实际的目标函数是这两个函数之和E(θ) = C(θ) + R(θ)，我们来画一下它的图形。顺便考虑一下最小值在哪里。把 θ1 各点上的 C(θ) 和 R(θ) 的高相加，然后用线把它们相连就好：

实际的目标函数是这两个函数之和E(θ) = C(θ) + R(θ)，我们来画一下它的图形。顺便考虑一下最小值在哪里。把 θ1 各点上的 C(θ) 和 R(θ) 的高相加，然后用线把它们相连就好：

极端一点，假设 θ2 = 0，这个表达式就从二次变为一次了，这就意味着本来是曲线的预测函数变为直线了：

这正是通过减小不需要的参数的影响，将复杂模型替换为简单模型来防止过拟合的方式。