糖尿病遗传风险预测挑战赛公开数据集

2024-03-29

糖尿病遗传风险预测挑战赛公开数据集

资源描述

本资源文件包含了数据挖掘和机器学习相关的数据集,特别针对糖尿病遗传风险预测挑战赛。数据集由训练集和测试集组成,旨在帮助初学者通过实践提升数据挖掘和机器学习的技能。

数据集详情

  • 训练集:包含5070条数据,用于构建预测模型。
  • 测试集:包含1000条数据,用于验证预测模型的性能。

训练集数据包含以下9个字段:

  1. 性别
  2. 出生年份
  3. 体重指数
  4. 糖尿病家族史
  5. 舒张压
  6. 口服耐糖量测试
  7. 胰岛素释放实验
  8. 肱三头肌皮褶厚度
  9. 患有糖尿病标识(数据标签)

代码示例

本资源还提供了两种训练策略的机器学习代码:

  1. 官方demo的ipynb代码
  2. 决策树实现的代码

适用人群

本资源适用于初学数据挖掘和机器学习的新手,帮助他们在实践中提升技能。

使用目标及场景

通过使用本资源,初学者可以在实际数据集上进行模型训练和验证,从而更好地理解和掌握数据挖掘和机器学习的基本概念和方法。

其他说明

本资源仅供学习交流使用。

下载链接

糖尿病遗传风险预测挑战赛公开数据集