数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(上篇)xgbootslightgbmatboost等模型模型融合:stackingblending汀人工智能

赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。

赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

一般而言,对于数据在比赛界面都有对应的数据概况介绍(匿名特征除外),说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。 Tip:匿名特征,就是未告知数据列所属的性质的特征列。

竞赛采用AUC作为评价指标。AUC(Area Under Curve)被定义为 ROC曲线 下与坐标轴围成的面积。

1、混淆矩阵(Confuse Matrix)

2、准确率(Accuracy)准确率是常用的一个评价指标,但是不适合样本不均衡的情况。$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$

3、精确率(Precision)又称查准率,正确预测为正样本(TP)占预测为正样本(TP+FP)的百分比。$Precision = \frac{TP}{TP + FP}$

4、召回率(Recall)又称为查全率,正确预测为正样本(TP)占正样本(TP+FN)的百分比。$Recall = \frac{TP}{TP + FN}$

5、F1 Score精确率和召回率是相互影响的,精确率升高则召回率下降,召回率升高则精确率下降,如果需要兼顾二者,就需要精确率、召回率的结合F1 Score。$F1-Score = \frac{2}{\frac{1}{Precision} + \frac{1}{Recall}}$

6、P-R曲线(Precision-Recall Curve)P-R曲线是描述精确率和召回率变化的曲线

7、ROC(Receiver Operating Characteristic)

TPR:在所有实际为正例的样本中,被正确地判断为正例之比率。$TPR = \frac{TP}{TP + FN}$FPR:在所有实际为负例的样本中,被错误地判断为正例之比率。$FPR = \frac{FP}{FP + TN}$

8、AUC(Area Under Curve)AUC(Area Under Curve)被定义为 ROC曲线 下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。

1、KS(Kolmogorov-Smirnov)KS统计量由两位苏联数学家A.N. Kolmogorov和N.V. Smirnov提出。在风控中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。K-S曲线与ROC曲线类似,不同在于

2、ROC

3、AUC

本部分为对于数据读取和指标评价的示例。

评分卡是一张拥有分数刻度会让相应阈值的表。信用评分卡是用于用户信用的一张刻度表。以下代码是一个非标准评分卡的代码流程,用于刻画用户的信用评分。评分卡是金融风控中常用的一种对于用户信用进行刻画的手段哦!

目的:

2.了解变量间的相互关系、变量与预测值之间的存在关系。

3.为特征工程做准备

以上库都是pip install 安装就好,如果本机有python2,python3两个python环境傻傻分不清哪个的话,可以pip3 install 。或者直接在notebook中'!pip3 install ****'安装。

查看一下具体的列名,赛题理解部分已经给出具体的特征含义,这里方便阅读再给一下:

通过info()来熟悉数据类型

总体粗略的查看数据集各个特征的一些基本统计量

查看缺失值

上面得到训练集有22列特征有缺失值,进一步查看缺失特征中缺失率大于50%的特征

具体的查看缺失特征及缺失率

Tips:比赛大杀器lgb模型可以自动处理缺失值,Task4模型会具体学习模型了解模型哦!

查看训练集测试集中特征属性只有一值的特征

47列数据中有22列都缺少数据,这在现实世界中很正常。‘policyCode’具有一个唯一值(或全部缺失)。有很多连续变量和一些分类变量。

数据探索性分析是我们初步了解数据,熟悉数据为特征工程做准备的阶段,甚至很多时候EDA阶段提取出来的特征可以直接当作规则来用。可见EDA的重要性,这个阶段的主要工作还是借助于各个简单的统计量来对数据整体的了解,分析各个类型变量相互之间的关系,以及用合适的图形可视化出来直观观察。希望本节内容能给初学者带来帮助,更期待各位学习者对其中的不足提出建议。

首先我们查找出数据中的对象特征和数值特征

在比赛中数据预处理是必不可少的一部分,对于缺失值的填充往往会影响比赛的结果,在比赛中不妨尝试多种填充然后比较结果选择结果最优的一种;比赛数据相比真实场景的数据相对要“干净”一些,但是还是会有一定的“脏”数据存在,清洗一些异常值往往会获得意想不到的效果。

把所有缺失值替换为指定的值0

向用缺失值上面的值替换缺失值

纵向用缺失值下面的值替换缺失值,且设置最多只填充两个连续的缺失值

像等级这种类别特征,是有优先级的可以labelencode或者自映射

在统计学中,如果一个数据分布近似正态,那么大约 68% 的数据值会在均值的一个标准差范围内,大约 95% 会在两个标准差范围内,大约 99.7% 会在三个标准差范围内。

特征分箱的目的:

数据分桶的对象:

分箱的原因:

分箱的优点:

特别要注意一下分箱的基本原则:

当数值横跨多个数量级时,最好按照 10 的幂(或任何常数的幂)来进行分组:09、1099、100999、10009999,等等。固定宽度分箱非常容易计算,但如果计数值中有比较大的缺口,就会产生很多没有任何数据的空箱子。

这里给出一些特征交互的思路,但特征和特征间的交互衍生出新的特征还远远不止于此,抛砖引玉,希望大家多多探索。请学习者尝试其他的特征交互方法。

特征选择的方法:

方差选择法

卡方检验

互信息法

特征工程是机器学习,甚至是深度学习中最为重要的一部分,在实际应用中往往也是所花费时间最多的一步。各种算法书中对特征工程部分的讲解往往少得可怜,因为特征工程和具体的数据结合的太紧密,很难系统地覆盖所有场景。本章主要是通过一些常用的方法来做介绍,例如缺失值异常值的处理方法详细对任何数据集来说都是适用的。但对于分箱等操作本章给出了具体的几种思路,需要读者自己探索。在特征工程中比赛和具体的应用还是有所不同的,在实际的金融风控评分卡制作过程中,由于强调特征的可解释性,特征分箱尤其重要。

THE END
0.2006年08月29日滚动新闻滚动新闻中心[财经] 美世界大型企业联合会8月份消费者信心指数下降 22:21 [体育] 图文-29日香港公开赛战报 林丹准备大力扣杀 22:20 [体育] 探花一度被对手欺负 安东尼[体育] 美网次日看点:萨芬纳达尔亮相 彭帅挑战辛吉斯 20:24 [体育] 技术统计-诺西奥尼21分风头正劲 土耳其哑火惨败 20:23 [财经] 伊朗石油官员邀请美jvzquC41pg}t0|npc0ipo7hp1qre39521pkxu:522a812?5:4;4tj}rn
1.高密市第三实验小学教育集团2019年十件大事在高密市国学达人挑战赛、第二十届中小学电脑制作比赛、书信大赛等活动中,共有200余人次获奖。组织师生积极参与国家卫生城创建活动,培养了学生环保意识、劳动能力,展现了学生“爱家爱校爱高密”的良好精神面貌。 七、校园东大门顺利启用 4月份,学校东大门正式启用。学校东门位于密水大街与曙光路交叉路口以南,这里路面jvzquC41yy}/onnrkct/ew44nqtq7jk
2.美高本背景提升:全球中学生高含金量商赛德勤数字化创新精英挑战赛,以“数字化”作为商赛主题非常有亮点,而且对报名者院校背景和年级没有任何限制,只要是本科生就可参与。 报名时间:6月14日-7月5日 初赛起始时间:7月6日 复赛起始时间:7月15日 决赛起始时间:8月14日 9)德勤税务精英挑战赛 jvzq<84yyy4cg|yuejupn|3ep1Ipn~rp0cyqAVtfgnCDqwygpveEg}fkn(I`KMB54;;27=99
3.2025年8月赛事汇总正在进行……2025年8月份赛事汇总8月赛事 报名进行中 全国数字建筑创新应用大赛 两岸新锐设计竞赛·华灿奖 比赛进行中 “西门子杯”中国智能制造挑战赛 中国大学生机械工程创新创意大赛 未来设计师·全国高校数字艺术设计大赛 中国高校智能机器人创意大赛 第19届中国好创意暨 jvzq<84ctenjvnhvwtk/umffc0kew7hp1ktgq86289558B:0jvs
4.苏州农业职业技术学院2020年大事记5月份 5月7日 学院在课耕楼国际交流中心召开疫情防控工作领导小组(扩大)会议,部署落实下一阶段学院疫情防控工作。学院领导、各部门负责人及各二级学院领导班子成员出席会议。 5月8日 由相城校区管理委员会主办,江苏省花卉产业技术体系苏州推广基地和江苏省球根花卉种质资源圃协办的“2020年相城科技园发展研讨会暨第二届苏农球宿根 jvzquC41yy}/uƒfk0gjv0ls1qhljen4kphu03967159:77mvo
5.2021年iCAN全国大学生创新创业大赛创业大赛(一)参赛报名、作品制作(5-7月份) 所有参赛团队统一通过大赛官网(http://www.g-ican.com/)报名,报名系统开放时间为2021年6月1日至7月31日。 (二)特训营(7-8月份) 针对创新创业教育、赛事指导、项目提升等进行培训。 (三)校内初赛(8月份) 各参赛高校根据报名数量自行决定校内赛举办,组委会进行指导工作,选拔jvzq<84o078kkwluck4dqv4ctvodnn2363>10qyon
6.遇见2024年郑州演唱会最新豫见娱乐汇总来了!我也郑在参加顶端文旅#创作挑战赛四期#只为豫见你豫见娱乐这里是《豫见娱乐》豫见老家河南,读懂中国!欢迎给小编点赞投票喔 家人们们朋友们, 郑州最最最新的演唱会汇总来了! (目前已经有信息的) 凤凰传奇、中原LMF已取消延期、张学友、邓紫棋 王源、林俊杰、汪苏泷、周华健、信乐团、 jvzquC41yy}/frsizktxgw3ep1jfvjnn16963M8G86=C;=H92DJ78B65G;H:4>5
7.保险公司述职报告15篇今年省公司连续举办多次全省各营业单位擂台赛,市公司也先后组织各营业单位、分部、处、分处、农村营销服务部进行擂台挑战赛,由于总经理室重视,个险部、网点部及时传递信息,全体参赛单位和个人发扬“有奖必拿,有一必争,有冠必夺”的精神,顽强拼搏,取得了优异成绩。永修、武宁、德安、修水、浔办、营销部等单位先后勇jvzq<84yyy4vpsx0eqs0hjsygpqv1=9458=/j}rn
8.共青团河南理工大学委员会2021年大事记团委4月10日,校团委、体育学院、校学生会联合举办河南理工大学第一届学生体质挑战赛决赛。经过激烈的角逐,男子“引体向上”前三名分别由资环学院付文森、机械学院牛照松、机械学院赵立春获得;女子“立定跳远”前三名分别由材料学院邹开娟、计算机学院孙悦、工商学院任程庆和医学院鲍蒙蒙获得。 jvzquC41vy4ir~3gfw4dp8nphq523;7139860qyo
9.我县教育系统在安庆市第二期“学习强国”月度积分挑战赛中喜获佳绩宿松融媒讯安庆市第二期“学习强国”月度积分挑战赛获奖名单公示数据显示,“学习强国”月度积分挑战赛6月份获奖人员中我县教育系统8人获奖,7月26日,县教育局党建办对我县教育系统获奖人员进行了颁奖。 在6月份挑战赛中,安徽师范大学附属复兴中学(宿松)邵欣老师以1653分的成绩遥遥领先,喜获全市一等奖第一名。花凉中jvzq<84yyy4bj|xpgyy/exr1jqz0dv44248198y424819;
10.关于2024年第十八届iCAN大学生创新创业大赛报名的通知(一)参赛报名、作品制作(4—7月份) 所有参赛团队统一通过大赛官网(www.g-ican.com)报名,报名开始时间为2024年4月1日,报名截止日期为2024年7月31日。 (二)校内比赛(8—9月份) 各参赛高校可根据报名数量自行决定校内赛的举办,分赛区组委会进行指导工作,选拔优秀项目晋级分赛区比赛。 jvzquC41yy}/eƒz0ep5`v=:614636856235d8j65:3831yfigo4ivv
11.张奔斗:仅凭3站赛事,吴易昺将排名暴拉了1500位吴易昺排名回归,其实主要靠三站赛事的暴拉——三四月份他积分只有1分了,排名一度跌到1800位之外,几乎面临动态清零。但他先是在4月份的一站M15赛夺冠,从1700多位拉回到800多位;5月份萨格勒布挑战赛从资格赛打到8强,从800多位拉到600多位;这回奥兰多挑战赛夺冠,从617位升285位到332位。jvzquC41yy}/v}unwu4dp8uwdnotj8frr1jbvj4424802?4351:3:<681unbtn60jvsm