数据挖掘实战之天池精准医疗大赛(1)——赛题与数据
简介
本资源文件提供了关于天池精准医疗大赛的详细信息,特别是关于赛题与数据的介绍。该大赛旨在通过糖尿病人的临床数据和体检指标来预测人群的糖尿病程度,以血糖浓度为指标。参赛选手需要设计高精度、高效且解释性强的算法来挑战糖尿病精准预测这一科学难题。
竞赛数据
大赛初赛数据共包含两个文件:
- 训练文件
d_train.csv
- 测试文件
d_test.csv
每个文件第一行是字段名,之后每一行代表一个个体。文件共包含42个字段,包含数值型、字符型、日期型等众多数据类型。部分字段内容在部分人群中有缺失。其中第一列为个体ID号,训练文件的最后一列为标签列,即需要预测的目标血糖值。
评估指标
初赛期间,参赛选手需要提交对每个人的糖尿病血糖预测结果,以小数形式表示,保留小数点后三位。该结果将与个体实际检测到的血糖结果进行对比,以均方误差为评价指标,结果越小越好。
数据预览
以下是数据集的部分字段和示例数据:
id 性别 年龄 体检日期 *天门冬氨酸氨基转换酶 *丙氨酸氨基转换酶 *碱性磷酸酶 *r-谷氨酰基转换酶 *总蛋白 白蛋白 *球蛋白 白球比例 甘油三酯 总胆固醇 高密度脂蛋白胆固醇 低密度脂蛋白胆固醇 尿素 肌酐 尿酸 乙肝表面抗原 乙肝表面抗体 乙肝e抗原 乙肝e抗体 乙肝核心抗体 白细胞计数 红细胞计数 血红蛋白 红细胞压积 红细胞平均体积 红细胞平均血红蛋白量 红细胞平均血红蛋白浓度 红细胞体积分布宽度 血小板计数 血小板平均体积 血小板体积分布宽度 血小板比积 中性粒细胞% 淋巴细胞% 单核细胞% 嗜酸细胞% 嗜碱细胞% 血糖
0 1 男 41 12/10/2017 24 96 23 10 99 59 20 23 76 88 49 60 166 0 9 9 17 4 0 164 54 1 34 2 6 5 4 7 0 6 6 06
1 2 男 41 19/10/2017 24 57 36 25 67 21 79 00 79 43 47 76 277 0 9 2 10 3 0 260 52 0 36 7 5 8 4 7 0 8 5 39
数据描述
训练集共5642个样本,42个字段,除去‘血糖’(label)共41个‘特征’。整体上看,这样的数据给出了还是很漂亮的,我们经过简单处理可以直接调包预测。
数据缺失情况
部分字段存在不同程度的缺失,例如:
- 乙肝表面抗原 4279
- 乙肝表面抗体 4279
- 乙肝e抗原 4279
- 乙肝e抗体 4279
- 乙肝核心抗体 4279
标签情况
训练文件的最后一列为标签列,即需要预测的目标血糖值。血糖值的分布极不平衡,最小是3.07,最大为38.43,均值为5.63。
总结
本资源文件提供了天池精准医疗大赛的赛题与数据详细介绍,帮助参赛者更好地理解数据集和竞赛要求。希望参赛者能够充分利用这些数据,设计出高精度、高效且解释性强的算法,挑战糖尿病精准预测这一科学难题。