关注微信公众号【Microstrong】,我现在研究方向是机器学习、深度学习,分享我在学习过程中的读书笔记!一起来学习,一起来交流,一起来进步吧!
本文同步更细在我的微信公众号中,公众号文章地址:https://mp.weixin.qq.com/s?__biz=MzI5NDMzMjY1MA==&mid=2247484127&idx=1&sn=9e59dc3f6f8a152e63361c399cb7124c&chksm=ec65335adb12ba4c86d6c5d88dfb0d2d4e5e06e264015cffaf2ce60e6d447fe7f27458f98c99#rd
目录:
(1)错误率(Error rate)和精度(Accuracy)
(2)查准率(准确率-Precision)、查全率(召回率-Recall)
(3)P-R曲线、平衡点和F1度量
2018年4月11日16:00左右,面试了腾讯的《基础研究》实习生职位,面试地点在广州。我投递的岗位是机器学习、深度学习算法工程师,面试结果是一面就挂了。虽然面试没过,还是要总结一下面试经验。把面试中自己回答不好的问题和思考不周全的问题,再仔细梳理一下,进行深入理解和学习。面试过程中,感觉自己回答特别不好的问题就是ROC曲线和AUC面积相关部分。我打算把关于衡量模型性能的指标全部梳理一下,先来总结错误率、精度、查准率、查全率和F1度量。
一、错误率、精度
错误率(Error Rate):是分类错误的样本数占样本总数的比例。对样例集D,分类错误率计算公式如1所示。

对公式(1)解释:统计分类器预测出来的结果与真实结果不相同的个数,然后除以总的样例集D的个数。
精度(Accuracy):是分类正确的样本数占样本总数的比例。对样例集D,精度计算公式如2所示。
注意:这里的分类正确的样本数指的不仅是正例分类正确的个数还有反例分类正确的个数。
对公式(2)的解释:先统计分类正确的样本数,然后除以总的样例集D的个数。
二、查准率、查全率
(1)查准率、查全率出现的原因:
情景一:
错误率和精度虽然常用,但是并不能满足所有任务需求。以西瓜问题为例,假定瓜农拉来一车西瓜,我们用训练好的模型对这些西瓜进行判别,显然,错误率衡量了有多少比例的瓜被判别错误。但是若我们关心的是“挑出的西瓜中有多少比例是好瓜”,或者“所有好瓜中有多少比例被挑了出来”,那么错误率显然就不够用了