【机器学习】ROC以及代价曲线

worker

分类：机器视觉

个人专栏：机器学习

发布时间 2021.06.03阅读数 7038 评论数 0

写在前面

前篇回顾：

在这片博客里我将记录模型评价的ROC曲线以及AUC面积的概念以及作用，并且同样以二分类任务为例介绍一个新的犯错成本不均衡的模型评价工具，那就是代价曲线

ROC于AUC

在这里我们要引入2个新的概念，那就是真正例率（True Positive Rate，简称TPR）和假正例率（False Positive Rate，简称FPR），定义如下图所示

连续点

现在我们介绍了很多的比例概念，让我们来整理一下吧
TPR：模型预测的正确正例占实际正例的比例
FPR：模型预测的错误正例占实际反例的比例
P：模型预测的正例的正确率
R：模型预测的正例的完整率
然后我们就可以介绍ROC曲线啦，我们以FPR为横坐标，TPR为纵坐标，修改分类阈值，也就是正例和反例的分割点，使得模型输出的TPR和FPR不同，从而得到如下的坐标图

我们来看一个特殊点，那就是坐标（1，1）和（0，0），这2个具体的含义是什么呢？我们来举个例子

这种情况就是很严重的过拟合了

这种情况就是很严重的欠拟合了，可以认为这个学习器啥也不会

离散点

在实际情况下，很难做到ROC曲线是连续的，因为拿来验证的数据集是有限的，所以实际情况下ROC曲线是非连续，而是离散的，如下图所示

其实ROC从（0，0）到（1，1）的过程可以看成随着训练的进行，模型输出从欠拟合到过拟合的过程

AUC

AUC全称Area Under ROC Curve，也就是粉色线所覆盖的区域面积，这个面积大小是用来评价模型的性能的，那该怎么计算离散点组成的ROC曲线的粉色线所覆盖的区域面积呢？
如下图所示

AUC数值越大也代表着模型越优

不均等成本及代价曲线

在现实生活中，犯错的成本是不一样的，比如马路上摔一跤和摔下楼梯这2个错误（失误）的成本是不一样的。同样的，在模型中的犯错成本也是不一样的，因此在这里引入新的概念，那就是二分类代价矩阵，如下图所示

代价敏感

我们设置cost来衡量整个模型的性能，初步实现了非均衡犯错成本的简单数学衡量，cost1是将正例识别成反例的惩罚因子，cost0是将反例识别成正例的惩罚因子，假设验证集里面有m个样本

cost可以理解成模型将正例判成反例时会惩罚cost1分数，模型将反例判成正例时会惩罚cost0分数，当把验证集里的m个样本都判断完毕之后会得到罚分结果的总和，并以此来判断模型的性能，因此这个罚分越小的话模型自然是越优的啦~
因为现在犯错的代价不再是均衡的五五开了，因此ROC曲线不能直接反映出模型的性能，但是还有代价曲线可以帮助我们衡量模型的性能

代价曲线

我们定义正例概率是p，并定义正例概率代价

其中p可以这样理解

我们再定义归一化代价，得到cost_norm

最后以cost_norm为纵坐标，正例概率代价为横坐标，将ROC曲线上的点绘制呈直线，这些直线与坐标轴会围出一个面积，取所有面积的交集就是我们要的期望总体代价
那么怎么将ROC曲线坐标上的点转化成直线呢？假设ROC上的点坐标为（FPR,TPR），可计算出相应的FNR，并绘制一条从(0,FPR)到（1，FNR）的直线就是我们要的结果啦~
其实这个直线也代表了模型随着训练从欠拟合到过拟合的一个过程，因此取面积交集，且面积交集越大，模型越优

（づ￣3￣）づ╭❤～一键三连，这次一定(๑•̀ㅂ•́)و✧

模型评估

原创文章作者：worker。如若转载，请注明出处：古月居 http://admin.guyuehome.com/34166

打赏 0

上一篇：【机器学习】模型的过拟合，欠拟合以及评估方法

下一篇：【机器学习】偏差与方差和F1与BEP值的关系

【机器学习】ROC以及代价曲线

worker

写在前面

ROC于AUC

连续点

离散点

AUC

不均等成本及代价曲线

代价敏感

代价曲线

为你推荐

Opencv-python-tutorial -- 2

【点云配准｜TEASER++】论文介绍&环境配置

深度图像转换为点云数据计算原理及代码实现

object_tracker单目标锁定追踪优化——输出坐标

走出寂静岭！暗通道先验的python实现

图像分类保姆级教程-深度学习入门教程（附全部代码）

评论（0）

关于作者

worker

105

0

1

6

基于信息增益的决策树

[c++06]private，friend和name hiding

[Astar_algorithm06]技术文档_A_star

相关推荐

基于opencv,openpose及caffe模型库实现手势识别

物体检测实战：使用 OpenCV 进行 YOLO 对象检测

OpenCV学习笔记（一） OpenCV简介及安装

python opencv 全景图像拼接原理

【二维码、条码识别】【Python+OpenCV】利用摄像头和OpenCV+Pyzar库识别二维码、条形码【含源码 2-1】

Halcon——使用标定板标定像素当量

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

TA的专栏

gazebo

c++

ros

传统路径规划方法

LeetCode

机器学习

专栏导航

多谢老板！

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板