海外现金贷App中的哪些数据变量显著性高、区分度好?

发布于:2022-12-23 ⋅ 阅读:(238) ⋅ 点赞:(0)

在信贷风控领域众多维度的数据源中,APP设备数据对于策略规则的开发、模型变量的筛选有着重要的贡献,理由是在当今电子信息化时代,APP数据可以较全面地反映出用户的个人习惯、日常行为等综合信息。但随着国内个人信息法的落地,许多之前可获取的个人信息维度如app设备数据都无法获取了。
但在海外,本文所提及的一些变量,尤其是app相关变量仍是在众多特征中显著性高、区分度好的特征。
因此,海外金融机构在开展个人信贷产品的实际业务中,当评估用户的信用能力或风险程度时,通过数据分析挖掘并利用APP维度数据的价值,仍可以有效提升的风控策略或模型的决策性能。
在相关的App的基础特征重主要包括社交类、理财类、游戏类等不同维度变量,具体特征字段表如图2所示。
在这里插入图片描述

                                                                  图2:  特征字典表

为了提升模型训练的拟合效果,特征字段的性能评估与变量筛选是一项重要环节,具体可通过变量的区分性、相关性、稳定性、解释性等多个维度进行考虑。现根据样本特征的分布情况,采用IV值评估以上字段的区分能力,如图3所示
在这里插入图片描述

                                                                     图3  原始变量指标IV

从特征字段的IV值结果来看,样本所有字段的区分效果普遍表现较差。当然,若在样本数据不更换的情况下,为了有效完成数据建模任务,还需从中选择性能较好的字段放入模型拟合变量池。但是,从上表信息可知,如果以IV>=0.015作为筛选标准,区分度效果较好的字段仅有4个,分别为App_Tot_Cnt_H(历史App总数量)、App_Fin_Cnt_L6(最近6个月理财类App总数量)、App_Fin_Cnt_H(历史理财类App总数量)、App_Game_Cnt_H(历史游戏类App总数量)。
为了保证模型训练有更多的变量可选,基于样本原始特征字段,可以进行特征衍生加工,以扩大模型变量池范围,有效提升模型的拟合效果。
具体衍生方法可以通过统计学维度进行新变量的加工,包括平均、占比、差分、差比等。现根据这几个常见方式,特征变量的衍生效果,如图4所示:
在这里插入图片描述

                                                               图4 : 特征衍生代码1

然,特征衍生方法还有很多,除了统计学维度,还可以通过特征聚类、主成分分析(PCA)等算法进一步补充,如图5所示:
在这里插入图片描述

                                                            图5  特征衍生变量2

在实际业务中,往往从多个维度进行综合考虑与加工,但无论采用哪种方式,一定要结合业务场景和逻辑理解,关于海外现金贷中的App的字段以及衍生内容,本次我们给知识星球童鞋准备了一份App相关特征的衍生字段,一共有257个字段之多,详情可到知识星球查收此份资料:
在这里插入图片描述

另外关于App相关的衍生内容,我们也贴心为大家准备了一个相关的衍生代码,协助大家在具体的工作中进行相关的代码衍生内容:
在这里插入图片描述
在这里插入图片描述

更多详细内容,有兴趣的童鞋可关注:
在这里插入图片描述

~原创文章

本文含有隐藏内容,请 开通VIP 后查看

网站公告

今日签到

点亮在社区的每一天
去签到