谁是狼人:模型的建立与应用

栏目: 数据库 · 发布时间: 5年前

内容简介:相信很多小伙伴们都玩过狼人杀的游戏,今天,作者将从狼人杀这款游戏出发,来和大家一起谈讨下数据与模型。玩过狼人杀的小伙伴们知道,狼人杀的魅力就是妥善利用各种信息,并加以推断,找到狼人玩家。对于新手而言,拿到狼人牌后,多半会显得紧张、结巴、语无伦次,甚至直接会在话语中暴露出狼人身份,坐实狼人身份。

相信很多小伙伴们都玩过狼人杀的游戏,今天,作者将从狼人杀这款游戏出发,来和大家一起谈讨下数据与模型。

谁是狼人:模型的建立与应用

数据挖掘1:谁是狼人

玩过狼人杀的小伙伴们知道,狼人杀的魅力就是妥善利用各种信息,并加以推断,找到狼人玩家。对于新手而言,拿到狼人牌后,多半会显得紧张、结巴、语无伦次,甚至直接会在话语中暴露出狼人身份,坐实狼人身份。

而高玩在拿到狼人牌时,会很好隐藏自己身份,使得普通玩家难以判断。那么问题来了,谁是狼人?

谁是狼人:模型的建立与应用

现实中,这样的“狼人”并不少见。

在信贷场景下,借贷者借钱后可能会恶意逾期不还,成为一个“狼人”。

“引狼入室”是借贷机构所不愿见到的,因此他们也想出了一些办法来识别借贷者的身份,比如人工验证借贷者的学历、收入、征信等信息。一段时间后,机构开始顶不住了,借钱的人太多了,审核不过来。而且由于审核方式单一,很多“狼人”巧妙利用各种方式通过审核,继续坑钱。

虽然一定程度上可以对审核规则进行更新,但“狼人”总能找到新的缺口,通过审核。这可愁坏了借贷机构,这造成的损失谁顶得住啊!

模型本质2:机器学习

不过,再会玩的狼人都会在言行上透露出狼人的本质。他们一言一行中总会给出细微但有价值的信息,积少成多,最终帮助我们揪出他的狼尾巴。只是,我们如何利用好这些信息呢?

谁是狼人:模型的建立与应用

随着大数据的崛起和机器学习的应用,借贷场景下的“狼人”开始无所遁形,我们可以掌握其更多维度的信息,帮助我们去判断借贷者的好坏身份,比如app安装偏好、地理位置等信息。

然后合理的运用机器学习建模方法,就可以将这些信息妥善利用起来,让“狼人”露出原形。这可乐坏了借贷机构,终于有解决办法啦!

模型3:逻辑与统计的胜利

狼人杀本就是个逻辑推理游戏,需要参与者能够准确抓住那些有助于我们判断的信息,并理性、客观地分析,最后找到狼人。只有这样,我们才能锻炼出“神预言家”的能力,并在不同对局中,都能准确找到“狼人”。

谁是狼人:模型的建立与应用

模型的运作就像一个机械化工厂,不同于人工审核(手工作坊)的方式,它更精密、准确,面对海量、多维度、弱特征的信息(如网络行为特征、地理信息等)时,仍可以高效率完成判别,大大提高工作效率,并且保证质量。

模型基础之一4:数据

纸上得来终觉浅,绝知此事要躬行,光知道玩法是不行的。

要想成为狼人杀推理高手,最重要的就是多玩、多分析。一方面,要进行大量对局,加深我们对狼人杀游戏玩法的理解;另一方面,也要和不同的人对局,获得足够多的玩家信息,便于我们了解玩家。

谁是狼人:模型的建立与应用

同样的,模型再好也需要数据支撑,数据的好坏是决定模型效果的最重要一环。一般情况下,对于已有的海量数据,我们都需要进行处理,如填补变量缺失值、组合变量、衍生变量等。

1. 特征筛选

由于狼人杀局内信息繁多,我们只需要挑选比较有价值的信息进行分析,场外信息和无关信息需要过滤,否则会降低我们分析的严谨性和可信度,从而不被其他玩家信任,这对于自诩“高玩”的我们肯定是太不能接受了。

谁是狼人:模型的建立与应用

游戏尚且如此,建模就更不能马虎了。建模中,必须要对样本特征进行严格的筛选,把对业务上有解释意义的变量纳入模型。

否则,面对你的建模结果,别人会一脸渴(meng)求(bi)地问:身高怎么就对一个人的逾期率产生了影响?实际操作中,我们会对诸如手机号、设备所在经纬度这样的变量进行剔除,选择个人兴趣偏好、多头得分等有解释意义的变量进入模型。

2. 样本与标签选择

苦练之下,终有所成,我们的狼人杀技术已经相当厉害了。正准备一展才华时,才发现他们要玩斗地主。慌乱之下,被地主打的落花流水,郁闷难当。

总结经验,就是先明确要玩什么,再去做准备。

谁是狼人:模型的建立与应用

建模也是一样。我们的建模是基于信贷场景下的。并且,根据不同的业务需求,建模所需准备也不同。对于贷前、贷中和贷后三个场景,我们对于“狼人”的定义和认知也是不同的。

贷前阶段,我们不知道借贷者是否是“狼人”,只是用模型去判断他的身份,避免“引狼入室”,但总会有遗漏;贷中和贷后阶段,我们发现了那些溜进来的“狼人”,这时,就需要对他们坏的程度进行确定,以采取进一步的手段和措施。

这里,发现“狼人”和判断“狼人”有多坏需要用到不同维度的信息,这就要求在建模中要选择同业务需求相一致的样本数据。

模型基础之二5:算法

终于,我们愉快的进行了几场狼人杀游戏。并且发现,每个人的思考逻辑、分析角度都不太一样。有的人只根据当前轮次的发言进行分析,有的人则倾向于将多轮次的发言综合起来分析,也有人选择划水,使得分析的结果也各不相同。

谁是狼人:模型的建立与应用

面对同样的业务需求,我们也可采用不同的建模方法。当然,不同建模方法之间互有优劣,具体如何采用,需要结合实际,妥善选择。信贷建模最为常用的当属LR,但其在大数据应用方面稍显逊色。实际中,我们更倾向于使用GBDT进行建模。

模型评估6:谁是“神预言家”

愉快的时光总是短暂的,游戏结束了。但这是否是几场高质量的对局?谁会是那个“神预言家”?

一般而言,需要通过多次对局、甚至和不同玩家多次对局才能判断玩家的推断能力。该玩家在某局推测的准确性多高?是否在不同局中都能保持这样的准确率?

谁是狼人:模型的建立与应用

模型完成后,也需要验证其准确性和稳定性,看它在其他样本(测试集、跨时间窗口样本)上的效果是否准确、稳定。

如果效果不好,则需要考虑重新调整样本(变量再筛选、再组合等)、模型参数,直到模型表现好为止。很多时候,这并不是一蹴而就的事,需要多次反复进行。

模型之痛7:巧妇难为无米之炊

经过废寝忘食的练习,我们终于成为了狼人杀高手。本以为会在游戏中练就火眼金睛,铲除狼人,带领队友走向胜利,却发现,己方全是“猪队友”,身为平民的我,无法获取足够信息,导致判断失误,痛输对局。或许此时,我们已经不能再玩低端局了。

虽然我们可能对建模方法的使用了如指掌,但没有足够有效的数据,我们也很难训练出一个好的模型。当前虽然是大数据时代,但对于很多小微企业、甚至很多大企业而言,如何获得数据都是他们所无法解决的痛点,即便掌握优秀的建模技能,但缺乏数据验证,也难以做出好的模型。

题图来自 Unsplash,基于CC0协议。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Learn Python the Hard Way

Learn Python the Hard Way

Zed Shaw / Example Product Manufacturer / 2011

This is a very beginner book for people who want to learn to code. If you can already code then the book will probably drive you insane. It's intended for people who have no coding chops to build up t......一起来看看 《Learn Python the Hard Way》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具