泰坦尼克号生存分类数据集

2023-04-22

泰坦尼克号生存分类数据集

简介

本仓库提供了一个经典的机器学习数据集——泰坦尼克号生存分类数据集。该数据集包含两个CSV文件：训练集和测试集。数据集主要用于训练和评估机器学习模型，以预测泰坦尼克号乘客的生存情况。

数据集内容

训练集（train.csv）：包含乘客的详细信息以及他们的生存状态（是否生还）。
测试集（test.csv）：包含乘客的详细信息，但不包含生存状态，用于模型预测。

数据字段说明

数据集中的字段包括：

PassengerId：乘客ID
Survived：是否生还（0 = 未生还，1 = 生还）
Pclass：船舱等级（1 = 头等舱，2 = 二等舱，3 = 三等舱）
Name：乘客姓名
Sex：性别
Age：年龄
SibSp：兄弟姐妹/配偶的数量
Parch：父母/子女的数量
Ticket：船票号码
Fare：票价
Cabin：船舱号码
Embarked：登船港口（C = 瑟堡，Q = 皇后镇，S = 南安普顿）

使用场景

该数据集适用于以下场景：

机器学习模型的训练和评估
数据分析和可视化
特征工程和数据预处理

注意事项

数据集中可能存在缺失值，需要进行数据清洗和预处理。
测试集不包含生存状态，需要使用训练集训练模型后进行预测。

贡献

欢迎对该数据集进行改进和扩展，包括但不限于：

数据清洗和预处理脚本
模型训练和评估代码
数据分析和可视化工具

请通过提交Pull Request的方式贡献您的代码和想法。

许可证

本数据集遵循开源许可证，具体信息请参考LICENSE文件。

下载链接

泰坦尼克号生存分类数据集

← 上一篇下一篇 →