风控|征信黑名单越来越多，该清退了( 二 ) 十里村|ip|才艺类|村长|生活类

所以，黑名单应该是一个有进有出的体系，要么自动出去，要么手动出去。
二、为何清退入黑的逻辑决定了其时效长短。
【风控|征信黑名单越来越多，该清退了】就像被拒的用户可以放进黑名单里，但这是为了防止用户再次申请时重复查询数据，产生数据费用。这个有效期可能一个月是比较合适的，更长就不合理了。因为用户状态发生变化了，重新评估可能会得到不一样的结果。
内部用户的风险都容易被评估，因而入黑很容易。这些人信息也可以及时地被跟踪。
这类入黑规则就适合自动设置一个出黑逻辑。
而那些外部黑名单数据呢，不是给你你就接来用的，收不收费不重要，最重要的是你要保证它准。
大数据发展这些年，出现了太多的三方数据平台，几乎每家都有黑名单的输出，短信的、支付的、法院公安的、设备的、互金的等等，什么类型的都有，非常丰富。
这也导致，名单来源千奇百怪，风险不一，你也不知道这个output的input是什么。所以，在接入的时候我们要评估它的覆盖率和准确率。
准确率就是命中的人风险是多少，显然是越高越好，实际上可能达到大盘风险的3倍、5倍就是合理的了。那覆盖率呢，就不能太高，3%、5%可能比较合适，如果达到10%以上，同时在这个水平上还能达到很高的准确率，就太夸张了，那这个数据的可靠性值得去怀疑下。
所以啊，不怕你没得拦，就怕你拦的太多。
不可避免，即使有合理的自动出黑机制，黑名单也容易越拦越多。
那怎么办？可能还得想点办法手动出黑。
也就是对其中一些低风险用户进行清退。但是这些用户又都是直拒的，没有风险表现。
手动清退还蛮困难的。
三、如何清退有困难也得做啊。怎么做呢？
这就是最开始提到的问题，是从里面把好人放出来，还是把坏人排掉后其他人都放出来？
这本质是风险偏好的问题。
如果我们认为样本总体，也就是待处理的黑名单全体，比正常用户要差，从里面捞好人就是更稳妥的办法；反之，如果我们认为样本总体和正常用户差不多，那应该采用排坏人的形式，要相信我们的模型，因为模型就是这样做的。
风险评估是伴随着置信度同步存在的，我们用模型做一个风险评分，评分好的用户里面有一批置信度高的好人，评分差的用户里面有一批置信度高的坏人。剩下大多数是中间态。
因为黑名单较差，清退中间态的用户太过冒险。稳妥起见，我们应该捞好人。
这相当于默认这些人有问题，捞回那些你能证明是好人的人。
这是有罪假说啊。
陪审团审判，首先假定一个人无罪，然后收集证据证明他有罪，如果有足够证据证明他有罪，就拒绝他无罪的假设。
我们做风控黑名单清退，竟然是在采用有罪假说。
具体怎么做呢？
我们需要一个模型去筛选置信度高的好人，其实无监督是不太合适的，因为那是找极端的坏人。我们需要定义合适的标签，一是，这些黑名单用户中应该还是有低比例用户有风险表现的，贷中的入黑就会产生这种结果；二是，图网络技术在这是合适的，因为信用风险是可以传播的，想法设法给一部分黑名单用户打出这个标签。
显然，这样的清退只能清退较少比例的用户，如果你期望黑名单规模减半，那还是从入黑的有效性入手吧。
正因为清退困难，作为用户来说，尽量别触黑了。
你也许会说，这个自助餐店不让你进了，你去其他家不就得了。
如果说，这些自助餐店共用一套黑名单呢？
四、背后的第一性原理黑名单容易传导，同时又很难被清退，入黑容易出黑难。这件事情背后是，一个坏用户带来的不良影响是需要很多很多好用户来弥补的，甚至是毁灭性的。