淘宝双11大数据分析(数据准备篇)资源文件介绍
本资源文件提供了淘宝双11大数据分析的数据准备篇所需的全部数据和相关工具。通过本资源文件,用户可以获取到淘宝2015年双11前6个月(包含双11)的交易数据,这些数据包括用户行为日志、回头客训练集和测试集等。
数据内容
本资源文件包含以下主要数据集:
- 用户行为日志文件(user_log.csv):记录了用户的交易行为,包括点击、加入购物车、购买和关注商品等。
- 回头客训练集(train.csv):用于训练模型的数据集,包含用户是否为回头客的标签。
- 回头客测试集(test.csv):用于测试模型的数据集,包含需要预测的用户是否为回头客的标签。
数据字段说明
user_log.csv 文件内容含义
- user_id:买家ID
- item_id:商品ID
- cat_id:商品类别ID
- merchant_id:卖家ID
- brand_id:品牌ID
- month:交易时间:月
- day:交易时间:日
- action:行为类型(0表示点击,1表示加入购物车,2表示购买,3表示关注商品)
- age_range:卖家年龄分段
- gender:性别(0表示女性,1表示男性,2和NULL表示未知)
- province:收货地址:省份
train.csv 和 test.csv 文件内容含义
- user_id:买家ID
- age_range:买家年龄分段
- gender:性别(0表示女性,1表示男性,2和NULL表示未知)
- merchant_id:商家ID
- label:是否是回头客(0表示不是回头客,1表示回头客,-1表示超出预测范围,NULL表示需要预测的值)
使用说明
- 数据上传与解压:将下载的压缩包上传到Linux系统并解压,解压后的文件包含上述三个主要数据集。
- 数据预处理:根据需要对数据进行预处理,例如删除字段信息、截取数据等。
- 数据导入Hive:将处理后的数据导入到Hive数据仓库中,以便进行进一步的分析和处理。
注意事项
- 本资源文件仅供学习和研究使用,请勿用于商业用途。
- 数据量较大,建议在具备一定硬件条件的机器上进行处理。
通过本资源文件,用户可以深入了解淘宝双11的交易数据,并进行大数据分析和挖掘,为电商行业的数据分析提供有力支持。