案例分析:Prosper是美国的一家P2P在线借贷平台,网站撮合了一些有闲钱的人和一些急用钱的人。用户若有贷款需求,可在网站上列出期望数额和可承受的最大利率。潜在贷方则为数额和利率展开竞价。
本项目拟通过该数据集的探索,结合自己的理解进行分析,最终目的的是初步预测哪些人贷款后会还款、哪些人会赖账。
1.探索数据集
1 loandata = read.csv("prosperLoanData.csv")
2 str(loandata)
结论:一共有81个变量,113937个对象
2.选择分析的变量
由于有81个变量,为简化分析,仅选取其中有代表性的13个变量。变量选取如下:
1. **ListingCreation**: 列表创建时间。
2. **Term**: 贷款期限,期限越长的,利率应当越高
3. **LoanStatus**: 贷款状态(Completed、Current、Defaulted、Chargedoff等)
4. **BorrowerBorrowerRate**: 借款利率。
5. **Delin**: 信用资料提交时借款人过去7年违约次数。
6. **StatedMonthlyIncome**: 客户自己声称的月收入。
7. **IsBorrowerHomeowner**: 借款人是否拥有住房。
8. **In**: 最近6个月的征信记录查询次数。一般来说,征信查询次数越多,该主体的贷款申请就越多。
9. **DebtToIncomeRatio**: 借款人的债务收入比,债务收入比越高筹资者财务状况越差,还款能力越低。
10. **Occupation**: 贷款人职业
11. **CreditGrade/ProsperRating(Alpha)**: 信用等级,前者反映的是2009年7月1日前客户的信用等级,后者反映的是2009年7月1日后的信用等级。信用等级越高,其偿债能力越强。
12. **CreditScore**: 由消费信用公司提供的消费信用评分,同信用评级作用。
13. **BankCardUse**: 信用资料提交时借款人信用卡使用额度和信用卡总透支额度的百分比,本文将这个数据分成四组(mild use; medium use; heavy use; super use)
3.数据预处理
3.1贷款状态
# 查看贷款状态
1 table(loandata$LoanStatus)
# 2.整合数据
# 针对LoanStatus进行重构
# 1.将所有含有"Past Due"字段的值统一为"PastDue"
# 2.将"Cancelled"归类到"Current"中
# 3.将"defaulted"归类到"Chargedoff"中
# 4.将"FinalPaymentInProgress"归类到"Completed"中
1 PastDue = (loandata$BankcardUtilization,
10 probs = 0.25, "na.rm" = TRUE)
11 &
12 loandata$BankcardUtilization = (loandata$BankcardUtilization,
19 probs = 0.5, "na.rm" = TRUE)
20 &
21 loandata$BankcardUtilization = 0.75] %
summarise(n = n())
ggplot(aes(x = reorder(Occupation, -n), y = n),
data = data_count) +
geom_bar(stat = "identity") +
theme(axis.text.x = element_text(angle = 90,
vjust = 0.5,
hjust = 1))
结论:职业中,选择“other”的人数最多,很多人在申请贷款时出于隐私或者其他原因不选择职业,该数据的真实性存疑
4.1.9贷款状态
ggplot(aes(x = LoanStatus), data = loandata) +
geom_bar()
table(loandata$LoanStatus)
结论:Prosper平台整体贷款的违约率约为16.74%
4.1.10贷款日期
1 loandata$ListingCreationDate "2009-07-01")) +
geom_boxplot() +
scale_x_discrete(limits = c("HR", "E", "D", "C", "B", "A", "AA")) +
stat_summary(fun.y = mean, geom = "point", shape = 4) +
stat_summary(fun.y = mean, geom = "smooth", aes(group = 1))
结论:通过比较2009年7月1日前后贷款利率与借款人信用评级之间的关系发现,2009年7月1日后图形的均值连线明显斜率更大,Prosper在涉诉恢复运营后更为重视借款人的信用评级,评级对贷款 利率的影响权重更大了。
总结论:
通过探索贷款利率与其他变量之间的关系,大致得出以下结论:
1. 贷款利率与过去7年的违约次数、过去6个月征信查询次数及负债收入比呈现出正相关关系。
2. 贷款利率似乎与借款人的月收入水平关系不明确。
3. 拥有房屋的借款人相比未拥有房屋的借款人更能够以较低利率筹得资金。
4. Prosper平台在2009年7月1日后似乎增加了信用评级对贷款利率的影响权重,并且不再对消费信用评分低于600分的借款人提供服务。
4.3多变量分析
4.3.1贷款日期和贷款利率和贷款状态之间的关系
1 ggplot(aes(x = ListingCreationDate, y = BorrowerRate, color = LoanStatus), data = loandata) +
2 geom_point(alpha = 0.05) +
3 guides(colour = guide_legend(override.aes = list(alpha = 1, size = 5)))
结论:2009年之前的违约数远大于2009年之后,且利息越高违约率就越大
4.3.2贷款利率与消费信用评分及贷款状态的关系
1 ggplot(aes(x = CreditScore, y = BorrowerRate, color = LoanStatus),
2 data = loandata) +
3 geom_point(alpha = 0.05, position = "jitter") +
4 coord_cartesian(xlim = c(400, 900), ylim = c(0, 0.4)) +
5 facet_wrap(~Phase, ncol = 1) +
6 guides(color = guide_legend(override.aes = list(alpha = 1, size = 5)))
结论:在2009年之前的债务违约明显很多,并且是以信用评分较低的且贷款利率较高客户为主,2009年之后平台不再为信用评分低于600的客户提供贷款,贷款的质量有了明显提升
也可以看出信用评分越高的客户,贷款的利率越低
4.3.3贷款利率与贷款总额及信用评级的关系
1 # 2009年7月1日之前
2 ggplot(aes(x = LoanOriginalAmount, y = BorrowerRate, color = CreditGrade),
3 data = subset(loandata, LoanOriginationDate "2009-07-01" &
13 !is.na(ProsperRating..Alpha.))) +
14 geom_point(alpha = 0.5) +
15 scale_color_brewer(type = "seq",
16 guide = guide_legend(title = "ProsPerRating", reverse = F,
17 override.aes = list(alpha = 1, size = 5))) +
18 facet_wrap(~LoanStatus, ncol = 1)
结论:在2009年7月1日之后,Prosper将最大的贷款金额有25000提升到了35000,并且只针对信用评级为B以上的客户,随着贷款的金额越高利率在逐渐降低,此外平台的违约贷款都是由HR和E等级的客户导 致的
4.3.4贷款利率与贷款总额与信用卡使用频率的关系
1 # 2009年7月1日之前
2 ggplot(aes(x = LoanOriginalAmount, y = BorrowerRate, color = BankCardUse),
3 data = subset(loandata, LoanOriginationDate "2009-07-01" &
14 !is.na(BankCardUse))) +
15 geom_point(alpha = 0.5) +
16 scale_color_brewer(type = "p",
17 guide = guide_legend(title = "BankCardUse", reverse = T,
18 override.aes = list(alpha = 1, size = 5))) +
19 facet_wrap(~LoanStatus, ncol = 1)
结论:从信用卡的使用情况来看,时间节点前后并无明显变化。但是,违约贷款中,信用卡使用情况为Mild Use的借款人占比极低;相对的,信用卡使用情况为Super Use的客户占比却极高,这也印证了 前文的判断,信用卡的超额透支会对借款人的还款能力产生较大的负面影响。
总结论:
本部分通过分时间节点、分贷款状态更为深入的探索了多重变量之间的关系,发现如下特点:
1. 2009年以前贷款违约数量明显高于2009年以后的数量,且利率越高,违约率越高!
2. 消费信用评分越高的借款人,其贷款利率也相对越低。
3. 2009年以前,Prosper限制了最大借款金额为25000美元,而在2009年以后放宽限制至35000美元,且似乎只针对信用评级B级以上的客户开放申请。并且随着贷款金额的增加,贷款利率在逐渐降低。
4. 信用评级为“HR”和“E”的借款人在违约组中的比例明显较高。
5. 信用卡使用情况为Super Use的借款人在违约组中的比例明显较高,使用情况为Mild Use的借款人在违约组中的占比极低。
5.拟合因子,验证相关性
# 2009年7月1日之前
m1 |