您好,欢迎您来到国盈网!
官网首页 小额贷款 购房贷款 抵押贷款 银行贷款 贷款平台 贷款知识 区块链

国盈网 > 贷款知识 > 抵押贷款风控模型(大数据风控模型)

抵押贷款风控模型(大数据风控模型)

[SCF]数据化风控模型梳理方法,下面是产业互联网研习社给大家的分享,一起来看看。

抵押贷款风控模型

供应链金融风控其实是一个很庞大、很复杂的课题,也没有一个标准答案。按照不同维度来划分的话,供应链金融的种类和做法有很多,不同行业的做法就完全不一样。

供应链金融分为几块,第一块就是业务场景,一般基于仓储、物流运输等不同的行业会有相关的管理系统,比如WS、TMS和OMS系统等,公司内部可能会有内部管理系统。

线上业务平台和公司内部的管理系统会产生大量的数据。这种数据是为业务而不是为金融服务的,但这个数据是做供应链金融要考虑的重点。

第二块会有供应链金融平台和与金融相关的授信还款的整套管理系统。

整个风控体系在这里是连接供应链金融平台和业务场景平台的。图上这几个绿块是不同的数据来源,这些数据可能来源于业务场景的B2B平台、大数据公司或是行业数据。

这几个数据归到一起后,再做数据的分析采集,清洗后再基于这个数据来建模,再把模型的结果放到风控引擎里,最后把风控引擎的结果输出到供应链金融平台,这样就完成了整个业务的流程。

信息化视角下供应链金融风控的实现路径是怎样的呢?

从第1步到第6步是一个项目的初期过程。而第6步第8步是一个循环、不断迭代的过程。

第1步到第6步主要是从数据的选择,到的数据的清洗与整理,再到规则、评分和策略的界定,再到模型的实施,这是一次性的。做完后通过一段时间把供应链金融的数字化风控系统上线,往复循环,不断地优化模型。

供应链金融数据风控如何实现?

1、数据的几个层面

数据是整个供应链金融平台里最开始的原料来源。

首先是数据的选择和获取,在大数据时代,有很多互联网的数据、内部管理系统的数据以及第三方专业数据公司的数据可以通过接口、程序或爬虫软件等方式来获取,另外也要选取对所在行业和平台做供应链金融有效的数据。

其次是数据的清洗与整理,通过清洗和整理后把数据变成金融平台能够使用的数据。因为数据的来源很多,包括结构化的数据、非结构化的文本数据、word文档和Excel的数据或是从第三方网页爬过来的数据。这种数据需要通过清洗整理后变成金融可用的数据,这块就会涉及到数据的清洗整理。

第三块是数据的维护,因为数据是动态,需要不断更新维护。这样就要有一套更新机制,保证数据实时和定期的更新或者自动获取新的数据,用于后面的数字化风控,所以数据的维护和更新是很关键的。

2、用于供应链金融风控的数据类型

能够用于供应链金融风控的数据类型,这里简单归类为六大类:

第一类是公检法涉诉数据,这种数据可能来自国家政府部门,比如国家工商类网站、商务局网站以及海关网站等。有些数据公司对这些数据做了扒取、分类和整理。可能需要按条付费购买,当然也可以自己爬取,这就可能涉及开发成本。

第二类是企业关键人的数据,企业管理者可能是企业的法人,也有可能是企业的实际控制人。通过前面的工商数据找出企业背后关键人的数据,包括关键人的基本信息,以及本身的一些行为数据。当然这需要个人的同意,拿到数据后对企业关键人做分析,了解背后的法人和实际控制人的状况。

第三个是生产和交易数据,这是供应链金融独特的一点。生产和交易的数据是用于供应链金融风控的重要数据来源。基于生产和交易的数据去判断企业的状况,判比如企业是走上坡路还是走下坡路,生产是否正常,生产力是否饱和以及跟他的上下游的交易与付款是否正常等,这些都是非常重要的判断依据。

第四个是财务数据,财务的数据再加上金融数据也是传统信贷和银行采用的数据。金融数据一方面来自于平台的积累,一方面来自第三方相关的数据。还有就是供应链所在的行业数据,包括行业政策和商品价格的变化。

数据的来源很多,有的些偏重于生产和交易数据,有些更偏重行业数据,需要根据企业的状况或行业特点来选取,再用数据进行后续的建模和数字化风控的应用。

3、常用的数据类型

下面简单列举了常用两大类型数据:

1)业务数据,来自于生产和交易的数据,包括业务主体的基本信息、历史交易数据和订单数据,还有其他的业务系统数据,包括贷款申请时录入的数据,都是很关键的。数据录入时的验真也作为一个参考点

2)第三方数据分为企业、个人和行业,包括刚提到的公检法、税务、公积金、水电、征信、动产抵押等数据源,这些数据有些可能需要花钱购买,有些要自己去采集,有的是自己内部的或是合作方的数据。

供应链金融企业背后的法人代表也是很关键的因素。个人本身的数据,包括黑名单、定位,甚至银行流水的数据。

最后是行业的数据,比如物流行业的GPS、 ETC数据,外贸的海关贸易数据和第三方交易平台数据。很多行业门户会发布所在行业的价格指数,这也是非常重要的参考来源。

每个企业和行业的数据来源都不太一样,需要根据企业行业的实际情况选择。

4、风控数据源的选择标准

数据怎么来选?这里简单总结一下选择的标准:

第一个是数据在风控中的价值,因为数据是为后面的建模服务的,所以选数据前要先看模型应该怎么搭建建,要有个初步的架构。行业不同,数据的选择也不一样,公检法数据对于某些行业会比较关键,但对于某些行业又没那么关键。

第二个数据的真实性,数据是否真实可靠也是非常重要的。

第三个是数据可量化、指标化,只有可量化的数据才能用于后续的建模。

第四点数据获取得的成本。数据是通过接口跟别人对接,还是通过爬虫来获取,这里涉及的成本也是不一样的。因此数据的获取成本也很重要,数据不是说越多越好。另外还要考虑在建模过程中如何来使用这些数据。

5、数据处理过程

其实数据还有一个处理过程,数据有可能是结构化的,也有可能是很散乱的,这就需要做好数据的质量分析,以及对它的描述性做统计分析。

我们一般用SAS工具来对它进行分析,然后进行清洗和集成,以及数据的集计。举个例子,可能你得到数据源是单个企业里每个订单的详细数据,但是风控建模可能不需要如此详细,而且需要的是每月和每季度的订单量和交付量的数据,这时就需要提前对这些数据进行清洗再做集计处理,处理完的数据才是真正可用于服务建模用的数据。

数据化风控是供应链金融风控的一个重要的辅助手段,非常有价值,能够帮助平台完成很多的事情,节省很多人工的成本、降低人为操作风险、提高审批效率,是每个平台都应该去考虑和努力的方向。

来源:万联网

大数据风控模型

在机器学习分类模型的建立过程中,根据目标变量的取值分布不同,可以分为二分类模型与多分类模型。在信贷风控中,例如申请信用评估、客户流失分析等模型应用属于二分类场景,信用风险评级、客户价值分层模型应用等属于多分类场景。虽然二者同属分类场景模型,可以解决样本数据的类别划分问题,但在模型训练的算法参数、模型实践的输出结果等方面,必然存在着对数据分析与业务理解的差异,尤其是针对模型效果的评估,在具体指标的实现与解读方面,二分类模型与多分类模型有着较大区别。

对于二分类模型的性能评估,我们相对更为熟悉,主要原因是在金融信贷风控领域中,二分类模型的应用场景明显居多。常见的二分类模型指标包括KS、AUC、Accuracy(准确率)、Precision(精确率)、Recall(召回率)、F1-score(F1分数)等,这些指标是我们训练好模型之后,可以直接用来量化评价模型的应用效果。当然,在实际场景应用过程中可能只选择其中几个来实现,具体需要结合模型的开发场景与应用目的进行综合选取。

对于多分类模型,从算法本质的原理逻辑上来讲,与二分类模型都归属分类问题,因此模型的评价维度可以理解为与以上二分类模型的指标是一致的,但是主要差异是指标的推理逻辑有着明显区别,毕竟多分类模型可以理解为是多个二分类模型的合成,需要综合考虑各个目标类型的区分效果,这也是多分类模型评估的核心要点。本文将围绕以上场景描述,来具体介绍下多分类模型的评价维度与实现方法,这里主要是通过“微观”与“宏观”两个角度来展开分析。


1、多分类模型场景实现

在介绍多分类模型指标的过程中,为了使理论知识与场景业务相结合,本文通过具体的实例样本数据,并采用相关工具语言来实现多分类模型的效果评价。实例样本数据包含5000条样本与10个特征,部分数据样例如图1所示,其中ID为样本主键,X1~X8为特征变量,Y为目标变量(取值多分类),自变量X与因变量Y的取值分布情况分别如图2、图3所示。

编辑

添加图片注释,不超过 140 字(可选)

图1 样本数据


编辑

添加图片注释,不超过 140 字(可选)

图2 特征变量分布


编辑

添加图片注释,不超过 140 字(可选)

图3目标变量分布


根据以上样本数据的分布情况可知,特征变量X与目标变量Y均为数值型特征,且无缺失值情况,可以直接用于模型训练拟合。由于标签Y的取值有1、2、3多个情况,因此需要采用多分类模型来实现,这里选取传统机器学习算法逻辑回归LR来训练模型,具体建模实现过程如图4所示。

编辑

添加图片注释,不超过 140 字(可选)

图4 多分类模型训练与预测


当模型训练拟合完成后,将预测结果标签pred_Y与原始真实标签data_Y的分布结果进行输出,可以得到模型标签Y的三维混淆矩阵,具体如图5所示,这也是评估多分类模型性能的基础指标。

编辑

添加图片注释,不超过 140 字(可选)

图5 多分类模型混淆矩阵


对于真实标签与预测标签构成的混淆矩阵,在二分类场景下相对更为熟悉,通过对应二维决策矩阵下的真正例TP、真负例TN、假正例FP、假负例FN,可以得到二分类模型的相关评估指标,例如Accuracy(准确率)、Precision(精确率)、Recall(召回率)、F1_score(F1分数)等。但是,针对本文多分类模型输出的混淆矩阵,虽然相比二分类模型较为复杂,但本质上是多个二分类模型的分布结果。在采用相关指标来评估模型的综合性能时,虽然不能直接采用二分类方式来量化评价,但应用的原理思想是非常相近的,接下来我们便根据图5输出的混淆矩阵结果,来介绍多分类模型的评估方法,具体将会从“微观micro”与“宏观macro”两个维度来进行描述。


2、多分类模型微观评估

多分类模型“微观”评估是采用micro平均的思路来实现的,也就是针对分类模型指标(Accuracy、Precision、Recall、F1-score等)的推导过程,先算出所有类别的总体TP、TN、FP、FN数量,然后再根据公式得到相应指标结果。下面我们结合本文案例场景的模型混淆矩阵,来依次推导分类模型的常见指标Accuracy、Precision、Recall、F1-score。参照图5的标签分布结果,可以很容易得到目标变量各个类别的混淆矩阵指标,具体如图6所示。

编辑

添加图片注释,不超过 140 字(可选)

图6 多分类标签的混淆矩阵


根据图6展示的各类别(1、2、3)混淆矩阵指标TP、TN、FP、FN,可以进一步算出多分类模型的相关评价指标:

编辑切换为居中

添加图片注释,不超过 140 字(可选)


通过以上指标结果可见,在模型评估微平均micro情况下,模型指标Accuracy、Precision、Recall、F1-score的结果是一致,这并不是巧合,而是这种评估方式的固有属性。因此,在针对多分类模型的微观micro评价场景中,我们只需要算出以上模型指标的其中一个便可以映射到其他结果。


3、多分类模型宏观评估

多分类模型“宏观”评估是采用macro平均的思路来实现的,在输出模型相关指标的过程中,原始逻辑也是根据所有类别的TP、TN、FP、FN分布结果进行推导的,但与micro平均的方式相比,macro平均是分别算出每个类别的指标(例如Accuracy、Precision、Recall、F1-score等),然后再取所有类别的平均值作为模型的最终结果。下面我们仍然根据图6输出的各类别混淆矩阵,来分别算出每个类别的模型评价指标。由于算法逻辑一致,这里以类别1作为样例,具体过程如下所示:

编辑切换为居中

添加图片注释,不超过 140 字(可选)


根据以上类别1对应二分类模型的指标推导逻辑,可以同理得到类别2、3的指标结果,具体如图7所示。

编辑

添加图片注释,不超过 140 字(可选)

图7 各二分类模型评价指标


当得到各类别的二分类指标之后,只需要在各个维度下分别取其平均值,便得到了多分类模型的综合指标,最终评价结果如下:

编辑切换为居中

添加图片注释,不超过 140 字(可选)


由以上模型宏平均macro方式下的评估指标结果可以看出,与微平均micro评估结果相比,各模型指标存在一定差异,但都可以体现模型的综合性能。在实际多分类模型应用的场景中,如果对数据的每条样本等同看待,优先考虑微观micro平均方式;如果对数据的每个类别等同看待,优先考虑宏观macro平均方式,当然二者也可以同时使用,这样可以从不同维度来评价模型的效果。

此外对于“宏观”方式下多分类模型评估,还有一种更贴近实际目标数据分布的方式,也就是weighted评估,具体逻辑是根据各个类别的比例分别赋予不同的权重,然后得到相应的模型指标,而macro方式下是对各个类别等同看待赋予相同权重,而具体采用哪种方式更为合理,仍然要结合数据分布与场景需求等综合情况。

针对多分类模型的weighted评估,这里以模型指标Precision为例,介绍下weighted-Precision的实现过程,具体如下:

编辑切换为居中

添加图片注释,不超过 140 字(可选)


其中,Count1、Count2、Count3分别为样本目标变量类别1、2、3的真实数量(参见图5),

Precision1、Precision2、Precision3依次为各类别对应二分类模型的指标精确率(参见图7),根据以上公式可算出最终结果:

编辑切换为居中

添加图片注释,不超过 140 字(可选)

对于weighted评估方式下的Accuracy、Recall、F1-score等模型指标推导,可以参照以上逻辑过程来实现。


4、模型评估自动化实现

通过以上介绍,我们整体熟悉了多分类模型在micro、macro、weighted三种方式下模型指标的具体推导过程,全面理解了各指标的原理逻辑及其业务含义。这些模型指标的实现,看似比较复杂,但其算法逻辑是比较简单的,这也是我们从事风控模型工作必须掌握的。此外,在实际场景应用中,若实现综合平均性指标,可以不需要按照以上步骤来逐步推导,在python语言中直接调用函数包便可以输出指标结果。但是,这并不影响本文所要介绍的重点,无论采用什么方法获取最终结果,但是关于多分类模型各评估指标的底层算法逻辑,大家需要重点掌握,这是采用算法工具语言的前提,也是数据建模人员必备的能力。采用函数获取直接获取多分类模型各类平均指标的具体过程如图8所示,其中data_Y与pred_Y分别对应本文案例的真实标签与预测标签,输出结果如图9所示。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

图8 多分类模型指标实现


编辑

添加图片注释,不超过 140 字(可选)

图9 多分类模型指标结果


通过以上自动化输出的指标结果,与前边公式手动推导的指标结果对比可知,二者是一致的,在具体实践中可以针对场景来综合应用。

综上所述,我们围绕实际场景与样本数据,详细描述了针对多分类模型效果评估的实现方法,具体通过“微观”与“宏观”两个维度三种方式(micro、macro、weighted)来展开介绍的。

对于以上关于多分类模型的评估过程,本文额外附带了与以上内容同步的样本数据与python代码,供大家参考学习,详情请移至知识星球查看相关内容。

编辑切换为居中

添加图片注释,不超过 140 字(可选)

...

~原创文章

温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。

原文地址"抵押贷款风控模型(大数据风控模型)":http://www.guoyinggangguan.com/dkzs/83697.html

微信扫描二维码关注官方微信
▲长按图片识别二维码