泰坦尼克号生存分类数据集

2023-04-22

泰坦尼克号生存分类数据集

简介

本仓库提供了一个经典的机器学习数据集——泰坦尼克号生存分类数据集。该数据集包含两个CSV文件:训练集和测试集。数据集主要用于训练和评估机器学习模型,以预测泰坦尼克号乘客的生存情况。

数据集内容

  • 训练集(train.csv):包含乘客的详细信息以及他们的生存状态(是否生还)。
  • 测试集(test.csv):包含乘客的详细信息,但不包含生存状态,用于模型预测。

数据字段说明

数据集中的字段包括:

  • PassengerId:乘客ID
  • Survived:是否生还(0 = 未生还,1 = 生还)
  • Pclass:船舱等级(1 = 头等舱,2 = 二等舱,3 = 三等舱)
  • Name:乘客姓名
  • Sex:性别
  • Age:年龄
  • SibSp:兄弟姐妹/配偶的数量
  • Parch:父母/子女的数量
  • Ticket:船票号码
  • Fare:票价
  • Cabin:船舱号码
  • Embarked:登船港口(C = 瑟堡,Q = 皇后镇,S = 南安普顿)

使用场景

该数据集适用于以下场景:

  • 机器学习模型的训练和评估
  • 数据分析和可视化
  • 特征工程和数据预处理

注意事项

  • 数据集中可能存在缺失值,需要进行数据清洗和预处理。
  • 测试集不包含生存状态,需要使用训练集训练模型后进行预测。

贡献

欢迎对该数据集进行改进和扩展,包括但不限于:

  • 数据清洗和预处理脚本
  • 模型训练和评估代码
  • 数据分析和可视化工具

请通过提交Pull Request的方式贡献您的代码和想法。

许可证

本数据集遵循开源许可证,具体信息请参考LICENSE文件。

下载链接

泰坦尼克号生存分类数据集