最近在读的几篇论文中都使用ROC曲线来分析算法的好坏,这里总结一下这个曲线的一些名词和用法。我这里只列举一些很简单的内容,想要掌握详细的用法请移步参考中维基百科链接,那里讲解非常详细。

ROC曲线

在信号检测理论中,接收者操作特征曲线(receiver operating characteristic curve,或者叫ROC曲线)是一种座标图式的分析工具,用于:

  • 选择最佳的信号侦测模型、舍弃次佳的模型。
  • 在同一模型中设定最佳阈值。

在做决策时,ROC分析能不受成本/效益的影响,给出客观中立的建议。

名词

  • True Positive (真正, TP)被模型预测为正的正样本;可以称作判断为真的正确率
  • True Negative(真负 , TN)被模型预测为负的负样本 ;可以称作判断为假的正确率
  • False Positive (假正, FP)被模型预测为正的负样本;可以称作误报率
  • False Negative(假负 , FN)被模型预测为负的正样本;可以称作漏报率
  • True Positive Rate(真正率 , TPR)或灵敏度(sensitivity),TPR = TP /(TP + FN),正样本预测结果数 / 正样本实际数
  • True Negative Rate(真负率 , TNR)或特指度(specificity),TNR = TN /(TN + FP),负样本预测结果数 / 负样本实际数
  • False Positive Rate (假正率, FPR),FPR = FP /(FP + TN),被预测为正的负样本结果数 /负样本实际数
  • False Negative Rate(假负率 , FNR),FNR = FN /(TP + FN),被预测为负的正样本结果数 / 正样本实际数

参考

  1. Wikipedia: ROC曲线