标签:href stat 年收入 util 利用 test 查看 等级 技术
数据地址:https://tianchi.aliyun.com/competition/entrance/531830/information
1.导入模块和数据
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import datetime import warnings warnings.filterwarnings(‘ignore‘) data_train = pd.read_csv(‘F:/python/阿里云金融风控-贷款违约预测/train.csv‘) data_test_a = pd.read_csv(‘F:/python/阿里云金融风控-贷款违约预测/testA.csv‘)
2.数据基本认知
data_train.shape,data_test_a.shape
((800000, 47), (200000, 48))
查看y值的分布
data_train[‘isDefault‘].value_counts().plot.bar() plt.show() data_train[‘isDefault‘].value_counts()/len(data_train)# 0 0.800488 ,1 0.199513 plt.pie([0.800488,0.199513],labels=[0,1],autopct=‘%1.2f%%‘)
可以看出y值分布还是比较符合现实的情况
3.区分数值型和类别性特征
numerical_fea = list(data_train.select_dtypes(exclude=[‘object‘]).columns) category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))
结合一下字段含义,看看二者所属类型是否是符合真实情况
1 Field Description 2 id 为贷款清单分配的唯一信用证标识 3 loanAmnt 贷款金额 4 term 贷款期限(year) 5 interestRate 贷款利率 6 installment 分期付款金额 7 grade 贷款等级 8 subGrade 贷款等级之子级 9 employmentTitle 就业职称 10 employmentLength 就业年限(年) 11 homeOwnership 借款人在登记时提供的房屋所有权状况 12 annualIncome 年收入 13 verificationStatus 验证状态 14 issueDate 贷款发放的月份 15 purpose 借款人在贷款申请时的贷款用途类别 16 postCode 借款人在贷款申请中提供的邮政编码的前3位数字 17 regionCode 地区编码 18 dti 债务收入比 19 delinquency_2years 借款人过去2年信用档案中逾期30天以上的违约事件数 20 ficoRangeLow 借款人在贷款发放时的fico所属的下限范围 21 ficoRangeHigh 借款人在贷款发放时的fico所属的上限范围 22 openAcc 借款人信用档案中未结信用额度的数量 23 pubRec 贬损公共记录的数量 24 pubRecBankruptcies 公开记录清除的数量 25 revolBal 信贷周转余额合计 26 revolUtil 循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额 27 totalAcc 借款人信用档案中当前的信用额度总数 28 initialListStatus 贷款的初始列表状态 29 applicationType 表明贷款是个人申请还是与两个共同借款人的联合申请 30 earliesCreditLine 借款人最早报告的信用额度开立的月份 31 title 借款人提供的贷款名称 32 policyCode 公开可用的策略_代码=1新产品不公开可用的策略_代码=2 33 n系列匿名特征 匿名特征n0-n14,为一些贷款人行为计数特征的处理
标签:href stat 年收入 util 利用 test 查看 等级 技术
原文地址:https://www.cnblogs.com/cgmcoding/p/13667882.html