淘宝双11大数据分析数据准备篇资源文件介绍

2024-04-04

淘宝双11大数据分析(数据准备篇)资源文件介绍

本资源文件提供了淘宝双11大数据分析的数据准备篇所需的全部数据和相关工具。通过本资源文件,用户可以获取到淘宝2015年双11前6个月(包含双11)的交易数据,这些数据包括用户行为日志、回头客训练集和测试集等。

数据内容

本资源文件包含以下主要数据集:

  1. 用户行为日志文件(user_log.csv):记录了用户的交易行为,包括点击、加入购物车、购买和关注商品等。
  2. 回头客训练集(train.csv):用于训练模型的数据集,包含用户是否为回头客的标签。
  3. 回头客测试集(test.csv):用于测试模型的数据集,包含需要预测的用户是否为回头客的标签。

数据字段说明

user_log.csv 文件内容含义

  • user_id:买家ID
  • item_id:商品ID
  • cat_id:商品类别ID
  • merchant_id:卖家ID
  • brand_id:品牌ID
  • month:交易时间:月
  • day:交易时间:日
  • action:行为类型(0表示点击,1表示加入购物车,2表示购买,3表示关注商品)
  • age_range:卖家年龄分段
  • gender:性别(0表示女性,1表示男性,2和NULL表示未知)
  • province:收货地址:省份

train.csv 和 test.csv 文件内容含义

  • user_id:买家ID
  • age_range:买家年龄分段
  • gender:性别(0表示女性,1表示男性,2和NULL表示未知)
  • merchant_id:商家ID
  • label:是否是回头客(0表示不是回头客,1表示回头客,-1表示超出预测范围,NULL表示需要预测的值)

使用说明

  1. 数据上传与解压:将下载的压缩包上传到Linux系统并解压,解压后的文件包含上述三个主要数据集。
  2. 数据预处理:根据需要对数据进行预处理,例如删除字段信息、截取数据等。
  3. 数据导入Hive:将处理后的数据导入到Hive数据仓库中,以便进行进一步的分析和处理。

注意事项

  • 本资源文件仅供学习和研究使用,请勿用于商业用途。
  • 数据量较大,建议在具备一定硬件条件的机器上进行处理。

通过本资源文件,用户可以深入了解淘宝双11的交易数据,并进行大数据分析和挖掘,为电商行业的数据分析提供有力支持。

下载链接

淘宝双11大数据分析数据准备篇资源文件介绍分享