分类器评估方法对比

以一个有监督的二分类模型，模型对每个样本的预测为一个概率值，我们需选取一个阈值(cutoff)来区分好坏用户

假定我们已经定好了一个阈值，超过此阈值定义为（目标用户）1，低于此阈值定义为非目标用户（0），就可以计算出混淆矩阵(confusion matrix)

由上图我们可以得出TP.TN.FP.FN四个值。

ROC曲线（receiver operating characteristing curve):是由多个混淆矩阵的结果组合，若在上述模型中没有定义好阈值，而是将模型预测结果从高到低排序，将每个概率值依次作为阈值，那么就要多个混淆矩阵。

对于每个混淆矩阵，计算2个指标:

在画ROC曲线的过程中，若有一个阈值，高于此阈值的均为目标，低于这个阈值的均非目标，则该模型完美。ROC曲线经过（0,1）

AUC（Area Under Curve）的值为ROC曲线下面的面积，若上述模型十分准确，AUC为1。一般模型为0.5~1之间，AUC越高，模型区分能力越好。

Gini系数: 指ROC曲线与中线围成的面积和中线之上的面积与中线之下的面积（0.5）的比例，换算公式为Gini = 2*AUC-1

KS(Kolmogorov-Smirnov)：KS=max(TPR-FRR),可以反映模型的最优区分效果，此时所取的阈值一般为最优阈值