ML2. 分类器类与逻辑回归(Logistic Regression)

TIM

发布时间 2022.04.07阅读数 3108 评论数 0

逻辑回归可以用来解决分类问题，一个比较经典的例子是猫狗分类 (此例子属于深度学习的范围，因为处理图片需要用到卷积神经网络)。这里将问题简化为二值问题，具体如下图所示。我们需要做的就是找到一条线将这两个标签分开(后面将两个标签用数字 $0$ 和 $1$ 表示，即 $y \in \{0,1\}$ )。

1. 逻辑回归

大多数情况下，按照逻辑回归得出的直线很难将两个标签分清楚：

因此这里引入逻辑函数（Logistic function）。具体的做法是改变假设函数 $h_\theta (x)$ 的形式：

$h_\theta(x) = g(\theta^T x) = \frac 1{1+e^{-\theta^Tx}}$

其中有：

$g(z)= \frac 1 {1+e^{-z}}$

此函数被称为双弯曲S型函数（sigmoid function),下图是 $g(z)$ 的函数图像：

在此曲线中，大于 0.5 的值被认为是 1，小于 0.5 则是 0

之所以选择 sigmoid function 作为逻辑回归函数是因为它有很多便于计算的性质，比如其导数 $g'$ :

$\begin{aligned} g'(z) & = \frac d{dz}\frac 1{1+e^{-z}}\\ & = \frac 1{(1+e^{-z})^2}(e^{-z})\\ & = \frac 1{(1+e^{-z})} \cdot (1- \frac 1{(1+e^{-z})})\\ & = g(z)(1-g(z))\\ \end{aligned}$

那么，给定了逻辑回归模型了，如何找到最合适的 $\theta$ 呢？这里依然使用极大似然法来拟合参数。

首先假设：

$\begin{aligned} P(y=1|x;\theta)&=h_{\theta}(x)\\ P(y=0|x;\theta)&=1- h_{\theta}(x)\\ \end{aligned}$

更简洁的写法是：

$p(y|x;\theta)=(h_\theta (x))^y(1- h_\theta (x))^{1-y}$

假设 $m$ 个训练样本都是各自独立生成的，那么就可以按如下的方式来写参数的似然函数：

$\begin{aligned} L(\theta) &= p(\vec{y}| X; \theta)\\ &= \prod^m_{i=1} p(y^{(i)}| x^{(i)}; \theta)\\ &= \prod^m_{i=1} (h_\theta (x^{(i)}))^{y^{(i)}}(1-h_\theta (x^{(i)}))^{1-y^{(i)}} \\ \end{aligned}$

然后还是跟之前一样，取个对数就更容易计算最大值：

$\begin{aligned} l(\theta) &=\log L(\theta) \\ &= \sum^m_{i=1} y^{(i)} \log h(x^{(i)})+(1-y^{(i)})\log (1-h(x^{(i)})) \end{aligned}$

为了使似然函数最大，可以使用类似梯度下降的方法，不过这里是找最大值，所以叫做梯度上升法（gradient ascent）。其公式为：

$\theta := \theta +\alpha \nabla _\theta l(\theta)$

假设只有一组样本 $(x,y)$ ，则该公式的计算结果为：

$\begin{aligned} \frac {\partial}{\partial \theta_j} l(\theta) &=(y\frac 1 {g(\theta ^T x)} - (1-y)\frac 1 {1- g(\theta ^T x)} )\frac {\partial}{\partial \theta_j}g(\theta ^Tx) \\ &= (y\frac 1 {g(\theta ^T x)} - (1-y)\frac 1 {1- g(\theta ^T x)} ) g(\theta^Tx)(1-g(\theta^Tx)) \frac {\partial}{\partial \theta_j}\theta ^Tx \\ &= (y(1-g(\theta^Tx) ) -(1-y) g(\theta^Tx)) x_j\\ &= (y-h_\theta(x))x_j \end{aligned}$

对于 $m$ 个样本，则有表达式：

$\theta_j := \theta_j + \alpha \sum _{i=1} ^m (y^{(i)}-h_\theta (x^{(i)}))x_j^{(i)}$

这个表达式看起来与之前线性回归的表达一模一样：

Recap: 线性回归表达式：

$\theta_j := \theta_j + \alpha \sum _{i=1} ^m (y^{(i)}-h_\theta (x^{(i)}))x_j^{(i)}$

其区别是其中 $h_\theta (x) $ 的表达式与线性回归中的不同。

2. 感知器学习算法（The perceptron learning algorithm）

看完上一节的小伙伴可能有个疑问，如果我们至是想让 $y \in \{0,1\}$ ，最简单的方法应该是用阈值函数（threshold function）：

$g(z)= \begin{cases} 1 & if\quad z \geq 0 \\ 0 & if\quad z < 0 \end{cases}$

依然沿用之前的假设函数 $h_\theta(x) = g(\theta^T x)$ ，便可以得到下面的更新规则：

$\theta_j := \theta_j +\alpha(y^{(i)}-h_\theta (x^{(i)}))x_j^{(i)}$

这被称为感知器学习算法。

这种算法也可以作为分类器使用，但是它只会产生一个线性的分类，对于线附近的样本有分错的可能。即如下图所示：

因此现在很少使用这个感知器学习算法了。

3. 牛顿法 (Newton's Method)

之前我们一直使用梯度下降/上升的方法来计算极大值或者极小值。但其实在 $\theta \in R^n$ ，其中 $n$ 较小的情况下，使用牛顿法可以更快速的得到结果。

这里举一个 $\theta \in R$ 的例子。对于函数 $l(\theta)$ 来说，其极值点的位置即其导数为 $0$ 的位置：

现在使得 $f(\theta)=l'(\theta)$ ，通过限制 $\theta$ 的范围，使得 $f(\theta)$ 中只包含一个我们想要的极值点。那么要找到 $f(\theta) = 0$ 的位置，可以通过求其导数 $f'(\theta)$ 与 $x$ 轴的交点来不断的靠近零点。

其迭代公式可以表示为：

$\theta := \theta - \frac {f(\theta)}{f'(\theta)}$

逻辑回归背景中， $\theta$ 是一个有值的向量，所以我们要对牛顿法进行扩展来适应这个情况。牛顿法进行扩展到多维情况，也叫牛顿-拉普森法（Newton-Raphson method），如下所示：

$\theta := \theta - H^{-1}\nabla_\theta l(\theta)$

上面这个式子中的 $\nabla_\theta l(\theta)$ 和之前的样例中的类似，是关于 $\theta_i$ 的 $l(\theta)$ 的偏导数向量；而 $h$ 是一个 $n\times n$ 矩阵 ,实际上如果包含截距项的话，应该是, $(n + 1)\times (n + 1)$ ，也叫做 Hessian, 其详细定义是：

$H_{ij}= \frac {\partial^2 l(\theta)}{\partial \theta_i \partial \theta_j}$

牛顿法通常都能比（批量）梯度下降法收敛得更快，而且达到最小值所需要的迭代次数也低很多。然而，牛顿法中的单次迭代往往要比梯度下降法的单步耗费更多的性能开销，因为要查找和转换一个 $n\times n$ 的 Hessian 矩阵；不过只要这个 $n$ 不是太大，牛顿法通常就还是更快一些。当用牛顿法来在逻辑回归中求似然函数 $l(\theta)$ 的最大值的时候，得到这一结果的方法也叫做Fisher评分（Fisher scoring）。

上篇：ML1. 线性回归(Linear Regression) -2
下篇：ML3. 广义线性模型(Generalized Linear Models)

本文使用 Zhihu On VSCode 创作并发布

人工智能机器学习深度学习分类器逻辑回归

打赏 0

上一篇：ML1. 线性回归(Linear Regression) -2

下一篇：ML3. 广义线性模型(Generalized Linear Models)

ML2. 分类器类与逻辑回归(Logistic Regression)

TIM

1. 逻辑回归

2. 感知器学习算法（The perceptron learning algorithm）

3. 牛顿法 (Newton's Method)

为你推荐

精选基于SVM-支持向量机解决波士顿房价预测回归问题

Machine Learning-L7-最大熵模型

MMDetection简单教程：Python基础知识之类的继承、函数修饰器@和*args/**kwargs

精选TimesNet：用于一般时间序列分析的时间二维变化模型（代码解析）

神经网络的三种可视化方法——使用keras和MXNet(gluon)实现

行人重识别(10)——代码实践之数据处理器（transform.py）

关于作者

TIM

38

0

0

3

AD1. 自动驾驶的简介和历史

ADP1. Carla 排行榜参赛程序梳理

Paper 6. Deep Reinforcement Learning for AutonomousDriving

相关推荐

自动驾驶之轨迹规划7——A Real-Time Motion Planner with Trajectory Optimization for Autonomous Vehicles文献阅读

【Python实现卷积神经网络】：全连接层的正向传播与反向传播+python实现代码

行人重识别(2)——行人检测之HOG+SVM

机械臂论文笔记（二）【实时抓取点检测】Real-Time Grasp Detection Using Convolutional Neural Networks

PaddleDetection——VOC数据集的准备

强化学习入门项目 Spinning up OpenAI (1) installation

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

ML2. 分类器类与逻辑回归(Logistic Regression)

TIM

1. 逻辑回归

2. 感知器学习算法（The perceptron learning algorithm）

3. 牛顿法 (Newton's Method)

为你推荐

精选基于SVM-支持向量机解决波士顿房价预测回归问题

Machine Learning-L7-最大熵模型

MMDetection简单教程：Python基础知识之类的继承、函数修饰器@和*args/**kwargs

精选TimesNet：用于一般时间序列分析的时间二维变化模型（代码解析）

神经网络的三种可视化方法——使用keras和MXNet(gluon)实现

行人重识别(10)——代码实践之数据处理器（transform.py）

评论（0）

关于作者

TIM

38

0

0

3

AD1. 自动驾驶的简介和历史

ADP1. Carla 排行榜参赛程序梳理

Paper 6. Deep Reinforcement Learning for AutonomousDriving

相关推荐

自动驾驶之轨迹规划7——A Real-Time Motion Planner with Trajectory Optimization for Autonomous Vehicles文献阅读

【Python实现卷积神经网络】：全连接层的正向传播与反向传播+python实现代码

行人重识别(2)——行人检测之HOG+SVM

机械臂论文笔记（二）【实时抓取点检测】Real-Time Grasp Detection Using Convolutional Neural Networks

PaddleDetection——VOC数据集的准备

强化学习入门项目 Spinning up OpenAI (1) installation

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板