写在前面

对于学习器所产生的模型,我们可以通过不同的方法取评估,评估方法参照我的上一篇博客:
【机器学习】模型的过拟合,欠拟合以及评估方法
以二分类任务为例,提到了评估我们就需要标准,标准之上我们可以称之为好模型,标准之下我们可以称之为坏模型,那么这些标准有哪些呢?在这篇博客里面将分享错误率与精度和查准率、查全率与F1

错误率与精度

这一般是会同时出现的一对评判标准,错误率就是模型在泛化时检测错误的样本数与检测总样本数之比,精度就是在泛化时检测正确的样本数与检测总样本数之比,错误率与精度之和应该是1
公式描述如下

查准率与查全率

在这里要引入一个概念,他就是混淆矩阵。首先介绍一些概念,分别是真正例(True Positive,简称 TP ),假正例(False Positive,简称 FP),真反例(True Negative,简称 TN),假反例(False Negative,简称 FN),接下来就可以介绍混淆矩阵了,看下图

接下来介绍一下查准率(Precision,简称P),查全率(Recall,简称R),定义如下图所示

那么我们该怎么用这个P(查准率)R(查全率)来度量模型的性能呢?有以下这些方法

BEP法

P和R参数是呈矛盾的一对变量,一个变大,另外一个就会变小,
我们可以修改分类阈值,也就是正例和反例的分割点从而得到查准率和查全率之间的变化曲线,根据P和R的数据进行绘制相应的A,B,C曲线的图像,得到如下图所示

那么在这个时候就可以用曲线和坐标轴围成的面积来表示模型的性能,面积越大性能越好。但是很多时候这个面积都是不好确定的,所以我们就有了BEP法。
自然语言描述该方法就是用y=x直线与PR曲线相交,其实就是P=R时候的数值,就是BEP的数值,上图中的曲线C的BEP值就是0.6,BEP值越大,模型性能越好

F1和Fβ

BEP法虽然是简单,但是相应的评价模型性能的能力就没有那么出色了,因此引入了F1法,F1其实就是P和R的调和平均,公式如下所示

更一般的,可以取Fβ为加权调和平均,公式如下

其中β表示了查全率和查准率对于Fβ的影响,当β>1时查全率影响更大,β<1时查准率影响更大

可以用来具体衡量特定情况下的更优学习器,有时候查准率重要,比如人脸识别,有时候查全率比较重要,比如关键信息搜索,因此Fβ的使用更为灵活一些
当我们只取一次实验总是会有较大的误差,所以又可以进行愉快的多次取平均的实验啦,因为有混淆矩阵的存在,所以有2种办法

减少误差的方法

一种是取多个混淆矩阵的结果取平均

一种是取多个混淆矩阵的相应参数取平均

其实这2个方法都是取平均减小误差的


(づ ̄3 ̄)づ╭❤~一键三连,这次一定(๑•̀ㅂ•́)و✧