当我们丧失了对"好"与"坏"评判的标准,我们就是在一片浑浑噩噩中瞎折腾

风控建模的学习材料往往从模型开始讲,最后才讲到模型评价的标准上来。因为模型本身比较难以理解,所以导致评价标准的理解上,往往跟模型的复杂性搅在一起,感觉理解起来更加困难。

其实,评价风控的标准跟模型是没关系的,标准是一只尺子,用来衡量我们做的事情跟我们目标的距离,而模型就是我们做的事情。在这个尺子的度量下,哪个模型好,哪个模型坏,就可以量化的比较出来了。

所以,我们换个思路,先把我们的"尺子"讲清楚,然后再去讲这些模型如何去达到尺子的要求。今天这一讲呢,我们讲--混淆矩阵。

做风控审核的朋友要问了,"我就是审核一个客户的好与坏,咋还来一个矩阵呢,我学生的时候就怕看见矩阵,头疼"。其实,不要怕,这个矩阵是非常简单的,它只是借用了个矩阵的表达形式罢了。

首先,我们树立一个概念,我们每天的工作,是去审核一个个单个的借款人,而今天我们讨论的标准,不是针对一个借款人的,而是对我们一段时间内所有审核工作的一个综合考量。比如,过去3个月审核了1万个借款人,那总体来讲,审核效果如何呢,我们需要对这个考量制定量化的考核指标。

那么,问题就来了,什么样的指标能够告诉大家审核的结果的好坏呢?

坏帐率?有朋友说,如果发生坏帐越少,肯定是风控做的越好。问题是,如果我们把所有用户都拒掉,坏帐率肯定是0,因为就没有放贷嘛,哪来的坏帐。那销售部门肯定要闹翻天了,不交易哪来的提成啊?所以,并不是说坏帐率越低越好,还要考虑放贷的通过率。

通过率?通过的越多,销售部门的提成越高,大家都乐翻天了。老板这个时候要出场了,你们什么样的客户都做,坏账怎么办?都让老子抗么?风控人员不想混了么?

那最厉害的风控效果就是,呆帐率为零,而通过率是最高的。通俗来讲,就是应该放贷的都放了,而不应该放的都没放。而可悲的现实是,这样的判断力太难实现了,除了神以外,我们凡人是几乎无法达到这样的智慧的。我们审批通过的,肯定有漏网之鱼并最终导致坏账;而我们拒掉的,肯定有误杀的,该赚的钱没赚到。

那我们所寻求的各种手段,包括人工来审核,打分卡,逻辑回归以及其他的大数据算法,要达到的目标,无非是"漏网之鱼越少越好,同时误杀的也越少越好"。很长时间内,我们只能逼近两者的最优效果,但却无法达到。

于是,我们定义了几个指标,来量化出上面所说的情况。

本身是好客户,判断也为好客户的人群数量,英文标记为TP:True Positive

本身是坏客户,判断也为坏客户的人群数量,英文标记为TN:True Negative

本身是好客户,却判断为坏客户的人群数量,即误杀掉的,英文标记为FN:False Negative

本来是坏客户,却判断成好客户的人群数量,即漏网之鱼,英文标记为FP: False Positive

举个例子,有1000个贷款申请人,我们的风控人员人工将其中400个人判断成好人,600个人判断成坏人,即通过率是40%。结果发现,这400个人中,有300个还款了,100个成坏帐了,即TP=300,FP=100;而其实那600个人中,有200个是能还款的(假定我们是知道的),而400个人是真的还不了钱的,那么TN=400,FN=200。

为了更好地将TP,FP,TN,FN组织起来,我们把它们放成一个矩阵的形式(插入矩阵表达),叫做混淆矩阵,看,多么简单。我们肯定希望,TP和TN越大越好,FP和FN越小越好。

我们现在把判断的方法从风控人员人工判断,转成用逻辑回归来判断,这个衡量的方法是不变的。也就是说"有1000个贷款申请人,我们的逻辑回归风控模型将其中400个人判断成好人,600个人判断成坏人,即通过率是40%。结果发现,这400个人中,有300个还款了,100个成呆帐了,即TP=300,FP=100;而其实那600个人中,有200个是能还款的(假定我们是知道的),而400个人是真的还不了钱的,那么TN=400,FN=200。",

看,评判的标准来讲,与模型是无关的。

上例中,真实的好人数=TP+FN=300+200=500(即正确判断出的好人+误杀的),真实的坏人数=TN+FP=400+100=500(即正确判断出的坏人+漏网的坏人)。如果用逻辑回归,发现,TP=350(350个好人正确判断出来了),FP=50(50个漏网之鱼),那么FP=50(误杀的人150个),TN=450(450个坏人判断出来了)。那么该模型将比我们人工判断出来的效果要好。

好学的朋友一定又有疑问了,那600个人已经被拒掉了,我怎么知道其中有多少个好人被误杀呢?非常好的问题,我们不知道。

所以我需要在一个已知结果的人群当中来检验我们的模型,我们清楚每一个人是好人还是坏人,然后把这个结果先隐藏起来,我们让模型去做决策,看决策出来的结果(有的时候也被称为预测结果)与真实结果的对比,这些度量就出来了。

那这个已知结果的人群是从哪里来的?是从我们真实的业务中来的,也就是经常说的,要有积累的业务数据(也叫样本数据,每一笔借款记录当成一个样本),到了一定的量,来做模型出来。这个时候,我们往往把这些样本数据分成两部分,一部分样本用来训练(推算)模型出来,然后用另外一部分来测试,得出最终的结果出来。

如果思考的更深一点,我们发现,这些样本,其实我们是丢掉了那些被拒掉的案例,只留下了放贷的(因为这样的才知道最终结果)。也就是说,其实我们是利用那些真实放款人的数据来训练模型的,那些我们通过人的经验被拒掉的,是难以体现在我们的模型中的(因为模型是基于成功放款的样本来训练的)。而我们可能拿这个模型来决定一个人的贷款申请(人的经验来筛选这个环节没有了),这里面的偏差的问题如何解决?这个问题就是我们在马姆杜·雷法特所著《信用风险评分卡研究》一书中看到的拒绝演绎问题。这个问题比较复杂和充满争议,后面我们专门的章节介绍。

以上的介绍都很简单,下面我们来点更深度的。

有一个模型A,它预测出的一个贷款人是好是坏,其实不是一个绝对值,而是一个概率。即,模型预测张三80%的可能性是好人。对于好人这个群体,我们可以数一数,不同概率区间段上(比如,(80%~85%]就是一个区间段,表示概率大于80%且小于等于85%),好人的个数。我们就会得到一个<区间段,个数>的对应关系。比如<(80%~85%],100>表示,有100个好人的概率落在了(80%~85%]区间上。我们把不同区间段的对应关系表达在一张图上,这个关系一般符合图1的样子(学术上叫做分布)。这些柱状图可以简化为一条曲线来表达这个趋势。

我们需要设定一个阈值,比如说大于70%好人概率的都认为是好人,那么张三(80%>70%)就被预测为好人;如果说这个标准提高到了90%,那张三就被预测为坏人了。

比如,在图2中,我们以虚线表示的刻度作为评判好人的标准,则灰色部分(虚线左边)为FN(本身是好人,误杀为坏人),斜线部分(虚线右边)为TP(本身是好人,判断也是好人)。

同样的,我们也可以针对坏人群体做出类似的曲线出来,如图3所示,不同的是,斜线部分(虚线左边)为TN(本身是坏人,判断为坏人),灰色部分(虚线右边)为FP(本身是坏人,误判为好人)。

我们就很容易理解,这个标准的选择决定了我们对放款控制的力度。如果虚线越往右,风险控制越严苛,FP(漏网之鱼)就越小,但TP(正确放贷的量)也越小,被误杀就越多。反过来,如果虚线越往左,风险控制越松,TP(正确放贷的量)越多,但FP(漏网之鱼)也越多,正确找出来的坏人就越少。这是符合我们正常的理解的 。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2016-03-15
当我们丧失了对"好"与"坏"评判的标准,我们就是在一片浑浑噩噩中瞎折腾
风控建模的学习材料往往从模型开始讲,最后才讲到模型评价的标准上来。因为模型本身比较难以理解,所以导致评价标准的理解上,往往跟模型的复杂性搅在一起,感觉理解起来更加困难。其实,评价风控的标准跟模型是没关系的,标准是一只尺子,用来衡量我们做的事情跟我们目标的距离,而

长按扫码 阅读全文