金融风控-贷款违约预测数据
资源描述
本仓库提供了一个名为“金融风控-贷款违约预测数据”的资源文件,该文件用于预测用户贷款是否违约。数据集来自某信贷平台的贷款记录,总数据量超过120万条,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,数据集被分为三个部分:80万条作为训练集,20万条作为测试集A,20万条作为测试集B。同时,部分敏感信息如employmentTitle、purpose、postCode和title等已被脱敏处理。
数据集结构
- id: 贷款清单分配的唯一信用证标识
- loanAmnt: 贷款金额
- term: 贷款期限(year)
- interestRate: 贷款利率
- installment: 分期付款金额
- grade: 贷款等级
- subGrade: 贷款等级之子级
- verificationStatus: 验证状态
- issueDate: 贷款发放的月份
- purpose: 借款人在贷款申请时的贷款用途类别
- postCode: 借款人所在地区的邮政编码
数据处理
df2文件已经进行了数据处理,具体处理方法和步骤可以参考相关博客文章。
使用说明
- 下载数据集: 请在仓库中找到并下载“金融风控-贷款违约预测数据”文件。
- 数据预处理: 根据需要对数据进行预处理,如数据清洗、特征工程等。
- 模型训练: 使用训练集数据进行模型训练。
- 模型评估: 使用测试集A和测试集B对模型进行评估,确保模型的泛化能力。
注意事项
- 数据集中的部分信息已经过脱敏处理,确保了比赛的公平性。
- 请确保在处理数据时遵循相关法律法规,保护用户隐私。
贡献
如果您对数据集有任何疑问或建议,欢迎通过仓库的Issue功能提出。我们期待您的反馈和贡献!