乳腺癌预测数据集
案例介绍
这是一个典型的利用当前流行的机器学习算法来进行生物数据挖掘的案例,非常具有代表性。同样的算法可以应用在其他不同肿瘤研究中。
数据集描述
这是一份来自威斯康星州采集的乳腺癌数据集。这个数据集中包含699个细针抽吸活检的样本单元,其中458个(65.5%)为良性样本单元,241个(34.5%)为恶性样本单元。数据集包含11个变量指标,也就是数据集有11列,分别是:
- ID
- 肿块厚度
- 细胞大小的均匀性
- 细胞性状的均匀性
- 边际附着力
- 单个上皮细胞大小
- 裸核
- 乏味染色体
- 正常核
- 有丝分裂
- 类别
使用说明
该数据集可用于乳腺癌预测模型的训练和验证。通过分析数据集中的各项指标,可以构建机器学习模型来预测乳腺癌的良恶性。
注意事项
- 数据集仅供学习和研究使用,不得用于商业用途。
- 在使用数据集进行模型训练时,请确保数据预处理的准确性,以提高模型的预测精度。
- 数据集中的类别标签为“良性”和“恶性”,分别对应数值1和0。
希望该数据集能够帮助你在乳腺癌预测研究中取得进展!