以一个有监督的二分类模型,模型对每个样本的预测为一个概率值,我们需选取一个阈值(cutoff)来区分好坏用户
假定我们已经定好了一个阈值,超过此阈值定义为(目标用户)1,低于此阈值定义为非目标用户(0),就可以计算出混淆矩阵(confusion matrix)
由上图我们可以得出TP.TN.FP.FN四个值。
- precision:TP/(TP+FP)
- recall:TP/(TP+FN)
- F1:precision和recall的调和均值F1=2PR/(P+R) 相当于综合指标
- Fα:F1的变体,Fα = (α^2+1)PR/(α^2P+R) 利用α给P、R赋不同权重
ROC曲线(receiver operating characteristing curve):是由多个混淆矩阵的结果组合,若在上述模型中没有定义好阈值,而是将模型预测结果从高到低排序,将每个概率值依次作为阈值,那么就要多个混淆矩阵。