泰坦尼克号生存分类数据集
简介
本仓库提供了一个经典的机器学习数据集——泰坦尼克号生存分类数据集。该数据集包含两个CSV文件:训练集和测试集。数据集主要用于训练和评估机器学习模型,以预测泰坦尼克号乘客的生存情况。
数据集内容
- 训练集(train.csv):包含乘客的详细信息以及他们的生存状态(是否生还)。
- 测试集(test.csv):包含乘客的详细信息,但不包含生存状态,用于模型预测。
数据字段说明
数据集中的字段包括:
PassengerId
:乘客IDSurvived
:是否生还(0 = 未生还,1 = 生还)Pclass
:船舱等级(1 = 头等舱,2 = 二等舱,3 = 三等舱)Name
:乘客姓名Sex
:性别Age
:年龄SibSp
:兄弟姐妹/配偶的数量Parch
:父母/子女的数量Ticket
:船票号码Fare
:票价Cabin
:船舱号码Embarked
:登船港口(C = 瑟堡,Q = 皇后镇,S = 南安普顿)
使用场景
该数据集适用于以下场景:
- 机器学习模型的训练和评估
- 数据分析和可视化
- 特征工程和数据预处理
注意事项
- 数据集中可能存在缺失值,需要进行数据清洗和预处理。
- 测试集不包含生存状态,需要使用训练集训练模型后进行预测。
贡献
欢迎对该数据集进行改进和扩展,包括但不限于:
- 数据清洗和预处理脚本
- 模型训练和评估代码
- 数据分析和可视化工具
请通过提交Pull Request的方式贡献您的代码和想法。
许可证
本数据集遵循开源许可证,具体信息请参考LICENSE文件。