用深度学习进行欺诈检测

栏目: 数据库 · 发布时间: 4年前

内容简介：正如吴恩达在他关于应用 triplet loss 函数的演讲中指出的那样，在深度学习文献中总是会用到“__Net”或者“Deep__”这样的取名。所以，本着这种“传统”，我也将本文命名为Fraud Net或者Deep Fraud。言归正传，我们还是开始讲欺诈检测吧。

正如吴恩达在他关于应用 triplet loss 函数的演讲中指出的那样，在深度学习文献中总是会用到“__Net”或者“Deep__”这样的取名。所以，本着这种“传统”，我也将本文命名为Fraud Net或者Deep Fraud。

言归正传，我们还是开始讲欺诈检测吧。

用深度学习进行欺诈检测

图1：包括金融公司常规交易和欺诈交易的图

我们其实关注的是欺诈预测（预防欺诈发生），这个后续我们会说到。今天我们讲，如何把一些先验行为归于二分类目标，换句话说欺诈/非欺诈目标。我们将研究确定某个实体是否进行了交易欺诈的两种方法，第一是使用图的嵌入；第二是使用一些图的Topology Metric。

这里大家可能会有一个疑问，如果交易欺诈已经发生了，那么谁会在乎识别结果？通过学习这篇文章，你会知道这很重要。2015年我曾经提到过，假正（False Positive ，被模型预测为正的负样本）欺诈标签导致了118 billion dollars的损失，而实际欺诈案件的成本为90 亿美元。虽然90亿美元很多，但是只占总成本的7%。所以，准确标记欺诈交易和建立空间站一样重要。

图嵌入——个体欺诈

场景一：提高信用卡欺诈分析工具的准确性。

首先，要将你的数据组织成graph。将个人客户和商家作为节点，并将其财务历史作为节点属性。使用节点属性（比如交易时间戳和交易金额）构建表示这些实体之间金融交易的边。

然后，将graph嵌入到低维空间，这样我们才可以使用较为简单的模型来分析它。为什么不直接将graph data输入到模型中呢？因为几何形状不兼容（你可以通过学习Kipf他们的论文《Semi-Supervised Classification with Graph Convolutional Networks》了解我说的意思）。

正如上面所说，节点表示拥有信用卡的个人客户和与他们交易的商户。注意下面的三维结构，大量的边表示金融交易。这真是一个非常需要嵌入的图。

用深度学习进行欺诈检测

边表示金融交易

embedding的策略有很多，我主要介绍两个常见的，一是主成分分析降低维度（PCA）；二是通过特征值分解的spectral embedding（eig）。

用深度学习进行欺诈检测

图3：这是图2经过两种embedding方法后的呈现，蓝色是PCA；橙色是特征值分解。

最后，我们可以构建一个模型，对经过嵌入的graph进行建模就和普通的深度学习建模一样了。这包括了节点（实体），边，还有上述的坐标信息。建一个分类模型，进行训练就好了。

相关的信用卡欺诈检测数据集：http://mlg.ulb.ac.be

关于上述两个方法，也为大家找来了两种方法的详述内容：

The Principal Components Analysis of a Graph, and its Relationships to Spectral Clustering

https://www.info.ucl.ac.be/~pdupont/pdupont/pdf/ecml04.pdf

Spectral embedding of graphs

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.101.2297&rep=rep1&type=pdf

使用 Topology metric——团伙欺诈

场景二： 从大量的交易记录中找出洗钱的团伙。 这个问题比分析单个交易记录更有趣。 这不是看离散样本，而是要分析金融交互。 这也是图真正的魅力所在。

看下图，这是一组在财务上互动的公司。颜色代表他们的“community”，由无监督学习算法确定。任务是分析黄色的公司真的是洗钱团伙的幌子吗？

用深度学习进行欺诈检测

图4：黄色的公司真的是洗钱团伙的幌子吗？

第一步：将数据定义为图结构；

第二步：构建一个算法，提取感兴趣的子图（上图中的彩色社区），并计算每个社区的Topology metric；Topology metric是描述子图形状的，比如一种流行的Topology metric是边的数量，在黄色的子图中，有25条边。这里有很多何种Topology metric，我们为每个子图计算了几十个；

第三步：为每个子图构建这些topology metric的特征向量，以另一种方式连接节点属性。这里是计算子图中所有节点的平均节点属性；

第四步：构建已知标签的目标向量（或者多分类目标矩阵），然后构建模型训练。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

创新者的解答

【美】克莱顿•克里斯坦森、【加】迈克尔·雷纳 / 中信出版社 / 2013-10-10 / 49.00

《创新者的解答》讲述为了追求创新成长机会，美国电信巨子AT&T在短短10年间，总共耗费了500亿美元。企业为了保持成功记录，会面对成长的压力以达成持续获利的目标。但是如果追求成长的方向出现偏误，后果往往比没有成长更糟。因此，如何创新，并选对正确方向，是每个企业最大的难题。因此，如何创新，并导向何种方向，便在于创新结果的可预测性─而此可预测性则来自于正确的理论依据。在《创新者的解答》中，两位......一起来看看《创新者的解答》这本书的介绍吧!

码农工具

在线进制转换器

各进制数互转换器

XML 在线格式化

在线 XML 格式化压缩工具