风控|征信黑名单越来越多,该清退了( 二 )


所以,黑名单应该是一个有进有出的体系,要么自动出去,要么手动出去。
二、为何清退入黑的逻辑决定了其时效长短。
【 风控|征信黑名单越来越多,该清退了】就像被拒的用户可以放进黑名单里,但这是为了防止用户再次申请时重复查询数据,产生数据费用。这个有效期可能一个月是比较合适的,更长就不合理了。因为用户状态发生变化了,重新评估可能会得到不一样的结果。
内部用户的风险都容易被评估,因而入黑很容易。这些人信息也可以及时地被跟踪。
这类入黑规则就适合自动设置一个出黑逻辑。
而那些外部黑名单数据呢,不是给你你就接来用的,收不收费不重要,最重要的是你要保证它准。
大数据发展这些年,出现了太多的三方数据平台,几乎每家都有黑名单的输出,短信的、支付的、法院公安的、设备的、互金的等等,什么类型的都有,非常丰富。
这也导致,名单来源千奇百怪,风险不一,你也不知道这个output的input是什么。所以,在接入的时候我们要评估它的覆盖率和准确率。
准确率就是命中的人风险是多少,显然是越高越好,实际上可能达到大盘风险的3倍、5倍就是合理的了。那覆盖率呢,就不能太高,3%、5%可能比较合适,如果达到10%以上,同时在这个水平上还能达到很高的准确率,就太夸张了,那这个数据的可靠性值得去怀疑下。
所以啊,不怕你没得拦,就怕你拦的太多。
不可避免,即使有合理的自动出黑机制,黑名单也容易越拦越多。
那怎么办?可能还得想点办法手动出黑。
也就是对其中一些低风险用户进行清退。但是这些用户又都是直拒的,没有风险表现。
手动清退还蛮困难的。
三、如何清退有困难也得做啊。怎么做呢?
这就是最开始提到的问题,是从里面把好人放出来,还是把坏人排掉后其他人都放出来?
这本质是风险偏好的问题。
如果我们认为样本总体,也就是待处理的黑名单全体,比正常用户要差,从里面捞好人就是更稳妥的办法;反之,如果我们认为样本总体和正常用户差不多,那应该采用排坏人的形式,要相信我们的模型,因为模型就是这样做的。
风险评估是伴随着置信度同步存在的,我们用模型做一个风险评分,评分好的用户里面有一批置信度高的好人,评分差的用户里面有一批置信度高的坏人。剩下大多数是中间态。
因为黑名单较差,清退中间态的用户太过冒险。稳妥起见,我们应该捞好人。
这相当于默认这些人有问题,捞回那些你能证明是好人的人。
这是有罪假说啊。
陪审团审判,首先假定一个人无罪,然后收集证据证明他有罪,如果有足够证据证明他有罪,就拒绝他无罪的假设。
我们做风控黑名单清退,竟然是在采用有罪假说。
具体怎么做呢?
我们需要一个模型去筛选置信度高的好人,其实无监督是不太合适的,因为那是找极端的坏人。我们需要定义合适的标签,一是,这些黑名单用户中应该还是有低比例用户有风险表现的,贷中的入黑就会产生这种结果;二是,图网络技术在这是合适的,因为信用风险是可以传播的,想法设法给一部分黑名单用户打出这个标签。
显然,这样的清退只能清退较少比例的用户,如果你期望黑名单规模减半,那还是从入黑的有效性入手吧。
正因为清退困难,作为用户来说,尽量别触黑了。
你也许会说,这个自助餐店不让你进了,你去其他家不就得了。
如果说,这些自助餐店共用一套黑名单呢?
四、背后的第一性原理黑名单容易传导,同时又很难被清退,入黑容易出黑难。这件事情背后是,一个坏用户带来的不良影响是需要很多很多好用户来弥补的,甚至是毁灭性的。