风控人千万不能错过的这种经典的策略规则组合

发布于:2022-10-14 ⋅ 阅读:(342) ⋅ 点赞:(0)

在金融信贷领域中,客户的基本信息是一类标配的底层数据,包括姓名、性别、年龄、学历、婚姻、住房等情况,这些信息对于线上信贷产品,很多情况下是客户通过产品申请界面端填写并提交,对于姓名、性别、年龄等信息,也可以采用OCR解析身份证的方式得到,从而让金融机构或助贷机构等业务方获取客户相关的申请数据,并落库形成常规的客户基本信息表。
针对客户的基本信息数据,从产品业务角度来讲是客户必需提供的信息,属于一种商业行为的交易凭证;从产品风控角度来讲是重要的数据来源之一,特征字段虽少但却是客户信息的客观反映。对于业务流程的风控体系搭建,客户的基本信息特征也是策略规则或数据模型的重要加工字段。

1、样本数据介绍及其处理
为了说明客户基本信息特征字段对于风控的贡献意义,本文选取常见特征“年龄”与“学历”,来为大家介绍下客户基本信息在策略模型中的加工方法与应用思路。本文将选取具体样本数据来展开实例分析,测试数据包括3000条样本与4个字段,部分数据样例如图1所示,其中特征变量age、education分别为年龄、学历;目标变量flag为二分类,0/1代表好/坏客户。
在这里插入图片描述

                                                                 图1 样本数据样例

针对以上样本数据,我们通过图2的代码实现过程,来依次简单分析描述下字段age(年龄)、education(学历)、flag(标签)的数据分布,包括频数与占比,各变量的具体输出结果分别如图3~5所示。

在这里插入图片描述

                                                                图3 age数据分布

在这里插入图片描述

                                                          图4 education数据分布


在这里插入图片描述

                                                                图5 flag数据分布

通过以上特征的分布结果可知,年龄age的取值范围为20~50,学历education的类型划分包含7个层次。从频数或占比可以看出,特征age与education在各取值情况下,其样本数量分布有明显的差异。此外,根据目标变量flag的结果,得知样本数据的整体坏账率为17.2667%,这个指标数值大小对于后文将要介绍的策略规则开发具有绝对的参考标准。
由于年龄age的取值较多,且学历education为字符类型,为了便于对特征分析,我们对以上2个字段的取值进行适当转换。其中,年龄age划分为多个区间,这里选取以3为间隔距离,将age取值调整为2022、2325、2628等共10个分箱,对应新字段名称为age_bin;学历education按照每个类型划为1箱,只是将字符型转化为数值型,由于学历等级为有序分类变量,这里根据学历从低到高依次赋予数值17,保持了原有取值的比较关系,对应新字段名称为education_bin,以上特征转换的实现过程具体如图6所示,生成的部分数据样例如图7所示。
在这里插入图片描述

                                                            图7 特征转换数据样例

2、年龄的单维探索分析
当特征age、education完成数据转换后,接下来我们来具体探索分析下“年龄”与“学历”在风控策略的应用。我们将从单维度、双维度两个方面来展开数据分析,研究特征变量对于策略规则的可行性与区分度。首先,我们对年龄age进行分析,将特征的取值分布按分箱处理,由于前边对特征age转换时已划分为10个区间,这里可以直接按照10个分箱来输出相关指标,包括各区间的样本数量、好坏占比等,从而得到重点字段badrate(坏账率)、percent(样本占比),这是确定策略规则的重要参考指标,此外也可以同步分析下证据权重woe、信息值IV等,便于对特征数据分布有更深入的理解。以上分析的实现过程详见知识星球代码详情,输出的数据分布结果如图9所示。
在这里插入图片描述

                                                            图9 年龄age分布结果

从上图的特征age的分布结果可知,对于年龄区间age_bin由1~10的连续区间,样本的坏账率badrate并未呈现出很好的单调性趋势,但是在分布的两端区间则体现出了较好的区分性,其坏账率badrate明显高于中部区间的样本表现。其中,区间[20,23)的客户坏账率为27.86%,区间[47,50]的客户坏账率为31.58%,都比样本的整体坏账率17.2667%高出许多,此时可以考虑将这2个区间作为策略规则。
同时,我们再来看下这2个区间对应的样本占比percent,分别为4.67%、1.27%,数量是比较少的,一般情况下当区间样本占比少于5%是比较合理的,如果也不能占比过大,需要进一步对区间分布进行细化。综合对这2个区间的坏账率badrate与样本占比percent的分析,都满足策略规则开发的条件,将其总结为客户age<23或age>46时可以进行风控决策,至于是否直接拒绝或者风险标注,需要综合业务场景决定。通常情况下,当区间样本坏账率是整体样本坏账率的2~3倍以上时,可以考虑直接拒绝,当然这并不是绝对的。为了满足通用风控场景,这里可以将以上2个策略作为柔性规则,也就是当客户命中age<23或age>46的条件时,给以较高风险的标签,后续若有其他规则的风险等级,可以进一步综合性决策,这种场景属于风控策略的高柔性规则应用。

3、学历的单维探索分析
以上探索研究是针对特征age的分析过程,证明了当前样本数据的特征“年龄”对风控策略加工有一定的贡献价值与应用效果,下面我们按照以上分析逻辑,来探究下特征学历education的区分效果,具体实现过程详见知识星球代码详情所示,输出的结果分布如图11所示。
在这里插入图片描述

                                                        图11 学历education分布结果

从上图学历education分布结果可知,对于各个学历类型,样本坏账率badrate的差异表现相对比较明显,例如学历“小学及以下”的坏账率为29.41%,明显高于样本的整体坏账率17.2667%;学历“博士及以上”的坏账率为12.77%,明显低于样本的整体坏账率。同时,针对当前样本数据及其分析结果,可以较直观的看出,随时客户学历层次的升高(小学至博士),样本客群的坏账率整体呈现从高到低的变化趋势,对应的可视化折线图如图12所示,说明客户群体的学历类型越高,违约变坏的可能性越低。
在这里插入图片描述

                                                       图12 education与badrate趋势

根据以上分析结果,可以针对坏账率badrate明显较高的学历类型区间(与整体样本badrate相比),也就是学历类型“小学及以下”、“初中”,可以考虑定义为一定风险等级的策略规则。同时,这两个学历类型区间的样本占比percent(1.13%、5.30%),也是比较符合策略开发的常用阈值范围(5%以内或附近)。其中,“小学及以下”学历类型可以定义为高风险柔性规则,“初中”学历类型可以定义为低风险柔性规则。

4、年龄与学历的双维探索
通过以上对年龄age、学历education的单维度探索分析,我们依次开发了可用的4条策略规则,具体如下:
(1)当年龄age<23,赋予高风险(或拒绝);
(2)当年龄age>46,赋予高风险(或拒绝);
(3)当学历education=小学及以下,赋予高风险(或拒绝);
(4)当学历education=初中,赋予低风险(或高风险)。
以上规则对于识别客群样本的风险具有较好的区分度,在风控策略体系中有较好的适用性。如果为了精细化管理与应用策略规则,针对年龄age、学历education的探索研究,还可以考虑尝试双维度来分析,也就是将这2个特征进行二维交叉,形成决策矩阵,从中选取合适的区间进行规则制定。在很多实际场景中,这种方法的应用可以获得有很好的效果。
现对特征年龄age、学历education进行二维交叉分析,与上文的单维度特征研究的原理类似,仍然输出不同组合对应的坏账率badrate、样本占比percent,具体实现过程详见知识星球代码详情,生成的数据分布指标badrate、percent结果分别如图14、图15所示。
在这里插入图片描述

                                                                 图14 双维分析badrate结果


在这里插入图片描述

                                                          图15 双维分析percent结果

由图14展示的年龄age、学历education双维分析badrate结果可知,对于风险较高(badrate较大)的客群样本区间分布,主要集中在年龄age较小和较大区间,与学历education较低区间的交叉组合,例如age=[20, 23)、[23, 26)、[44, 47)、[47, 50]等,education=小学及以下、初中等。这些组合区间的样本坏账率badrate明显高于样本整体坏账率(17.2667%),多数已达到了2~3倍以上,这里很清晰的了解到,双维度的特征交叉规则,其区分效果要优于单维度的规则。
针对以上的特征交叉组合,从图15的年龄age、学历education双维分析percent结果同步看出,各组合的样本占比均在1%左右,满足一般策略规则开发条件。综合特征交叉区间相关组合的badrate与percent数据表现,完全可以直接作为刚性规则来使用,现根据以上分析结果举几个规则样例:
(1)当年龄age<23且education=小学及以下、初中、高中,直接拒绝;
(2)当年龄age<26且education=小学及以下,直接拒绝;
(3)当年龄age>=41且education=小学及以下、初中,直接拒绝。
综合以上内容,我们围绕实际业务场景的“年龄”与“学历”信息,通过数据探索分析,对其风控策略规则应用的价值进行了研究,结果也证明了客户简单的基本信息数据对风控策略的贡献价值与应用意义。
本文根据实例样本数据,从单维度与双维度两个方面,全面分析了年龄age、学历education在开发策略规则流程的方法与思路,这对于其他维度数据的探索也具有很好的参考价值。为了便于大家对“年龄”与“学历”在风控策略规则应用研究的进一步熟悉与理解,本文额外附带了与以上内容同步的python代码与样本数据,供大家参考学习,详情请移至知识星球查看相关内容。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

~原创文章

本文含有隐藏内容,请 开通VIP 后查看