机器学习笔记-相关与回归分析

Pijriler

分类：机器学习

发布时间 2023.04.08阅读数 2513 评论数 0

前言

相关与回归分析是分析变量之间关系的统计方法，本章只介绍简单的相关分析和一元线性回归。

变量间关系的度量

变量之间存在的不确定的数量关系，称为相关关系
即当给定一个自变量，其对应的因变量值可能有好几个，这种关系不确定的变量显然不能用函数关系来描述，但也不是没有规律可循，相关分析就是分析这类数据的方法。

相关系数	相关程度
\| r \| $=$ 1	完全线性关系
0.8 $\leq$ \| r \| $\leq$ 1	高度相关关系
0.5 $\leq$ \| r \| $\leq$ 0.8	中度相关关系
0.3 $\leq$ \| r \| $\leq$ 0.5	低度相关关系
\| r \| $\leq$ 0.3	极弱相关关系
\| r \| $=$ 0	不存在线性关系

一元线性回归

回归分析非常重要！
很早之前就接触过回归分析，那个时候还只是知道给定两组数据，使用Matlab的回归函数直接计算系数，然后进行预测。从来不知道回归分析的详细推导，其实别看回归分析非常简单，后面包含的知识体系非常大。
回归分析包含线性回归和非线性回归，线性回归中有包含一元线性和多元线性，我们这里只研究一元线性回归。
描述因变量如何依赖于自变量 $x$ 和误差项的方程，称为回归模型。对于只涉及一个自变量的一元线性回归模型如下：

的值是由自变量和误差项所决定，误差项是一个期望值为0的随机变量，即 $E(\varepsilon)=0$ ，这也意味着，模型中的是常数，于是 $y$ 的期望值。

参数的最小二乘估计

利用最小二乘法就可以求解合适的参数，一般在遇到问题时，我们都是借助计算机来求解，因为计算机只需要导入数据，直接可以生成所有结果。
在平时做题时，我们利用最小二乘法求解完参数就以为结束了，但是事实上还有很多工作没有做，或者说做了我们不知道，例如参数的检验，线性关系的检验和拟合效果评价。

回归直线的拟合优度

我们利用最小二乘法对数据进行了拟合，但是效果怎么样却不能直观看出，我们需要计算相关的指标，其中用来评价拟合效果的指标就是判定系数。
判定系数又称 $R^2$ ，在了解 $R^2$ 是如何计算前，需要了解几个定义：

我们可以用它来评价回归直线拟合的效果如何，当的值越接近于1，就说明我们拟合的模型效果就越好。
在前面的相关系数我们计算的相关系数是 $r$ ，这里的判定系数为，都含有，那么它们之间是否有某种关系呢？
答案是肯定的，在一元线性回归中，相关系数实际上就是判定系数的平方根，利用这一结论就可以直接计算判断系数了。在前面我们说过通过可以看出观测数据的线性关系如何，那么这里又知道也可以通过来说明回归直线的拟合优度，但是有一点需要注意，用来直接评判拟合优度的效果并没有好，因为当
的值为0.5时，才有0.25，拟合的效果并不好，当的值为0.7时，才有0.5。所以我们一般不直接用的值来评价模型的拟合优度。

回归直线的误差

上一节介绍的是回归直线的拟合优度，也就是拟合效果，通过计算判定系数来反映模型的拟合情况，这一节我们要讨论的是模型的预测能力，也就是测量各实际观测点在直线周围的散布状况，这个量就是标准误差，也叫 $M S E$ 。
还记得在机器学习中了解到 $M S E$ 是均方误差，在那里叫做：Mean squared error，而这里叫做估计量的标准差：Standard error of estimate。虽然说定义上不同，但是我觉得都大差不差，我是把两种的适用范围混在一起了，本文的标准差计算公式如下：

若的值为0，则说明误差为0，侧面表示了拟合优度很好。
反映了用估计的回归方程预测因变量时预测误差的大小。

显著性检验

没错，又是显著性检验，这已经是本文第二次接触显著性检验了，在前面说要检验相关系数的可靠性，在这里也需要检验回归系数的可靠性。不仅仅要检验回归系数的可靠性，还需要检验线性关系的可靠性，是不是很多？其实不需要担心这么多，这些东西计算机会帮我们计算好。
在前面说过，在根据样本来拟合回归方程时，实际上已经假定变量与之间存在线性关系，即，并假定误差项是一个服从正态分布的随机变量，且对不同的都有相同的方差，但这些假设是否成立，需要检验才能证实。

线性关系的检验

第一个需要检验的就是自变量 $x$ 和因变量 $y$ 之间的线性关系是否显著，或者说，它们是否满足假定的条件。所有的检验方法都需要构建一个检验统计量，在这里统计量的构建是以回归平方和以及残差平方和为基础的。将除以其相应的自由度（自变量的个数，一元回归中的等于1）后的结果称为均方回归，记为，我们在这里关心的是线性关系显著，所以备择假设应该就是和满足线性关系，那么原假设就是和不满足线性关系，具体步骤如下：

线性关系的检验其实就是方差分析，关于两者的关系参考这篇文章方差分析与回归的关系

回归系数的检验

回归系数的显著性检验就是要检验自变量对因变量的影响是否显著的问题。其实就是检验回归系数是否等于0，详细步骤如下：

回归方程的预测

经过一系列的假设检验等等，终于找到合适和回归方程，现在我们可以使用这个方程进行预测。有人说，预测这不是很简单嘛，给定一个值，把带入回归方程直接计算不就行了嘛。没错就是这么简单，但是除此之外，我们还可以计算区间估计值，而这个区间估计值又分为两种：置信区间和预测区间。

置信区间

对于一个特定的值，求出的平均值的估计区间就是区间估计。一般来说，在置信水平下的置信区间可以表示为：

上面的是均方残差。是通过查表得到的。

预测区间

可以看到预测区间和置信区间的计算公式是非常的相似，只是预测区间中多了一个1。因此对于同一个，这两个区间的宽度也是不一样的，预测区间要比置信区间宽一些。

预测区间和置信区间的关系

至于为什么会有两个区间，这一点开始是比较困惑我的，预测区间和置信区间该怎么选呢？
在网上看到一个不错的回答：

预测区间：95%的预测区间，意味着，在此总体中随机抽取100个样本，其中大概有95个的个别值会落在这个区间
置信区间：95%的置信区间，意味着，从总体中随机抽取若干样本，其平均值会落在这个范围

一般来说，置信区间的参考意义更大，我们在平时做题的时候接触的基本上都是置信区间。

总结

相关系数和线性回归的内容肯定不止这么一点，这里也没把所有的内容都一一列出，我只是挑选了最基础最重要的部分。

建模仿真机器学习深度学习全卷积神经网络

打赏 0

上一篇：机器学习笔记_关于贝叶斯分类中特征是连续属性的处理

下一篇：机器学习笔记-激活函数

机器学习笔记-相关与回归分析

Pijriler

前言

变量间关系的度量

相关系数

相关关系的显著性检验

一元线性回归

参数的最小二乘估计

回归直线的拟合优度

回归直线的误差

显著性检验

线性关系的检验

回归系数的检验

回归方程的预测

置信区间

预测区间

预测区间和置信区间的关系

总结

为你推荐

Tensorflow学习——MNIST多层卷积网络解决方案

（三）表格型方法

用TensorForce快速搭建深度强化学习模型

深度学习图像分类（五）： ResNet

02_Tensorflow基本操作

K近邻算法和KD树详细介绍及其原理详解

评论（0）

关于作者

Pijriler

22

0

0

2

机器学习笔记-初学集成模型与随机森林

精选机器学习笔记-支持向量机

机器学习笔记-SMO序列最小最优化算法中关于解析方法的证明

相关推荐

MMDetection3D简单教程：模型定义、注册与搭建

YOLO系列之YOLO-Lite：实时运行在CPU上的目标检测算法

使用Msnhnet实现最优化问题(2)一(无约束优化问题)

重参数 (Reparameterization)

DiffDock源码解析

精选机器学习笔记-层次聚类

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板