Hive练习:春晚节目数据分析
资源文件介绍
本仓库提供了一个Hive练习的资源文件,旨在帮助用户熟悉Hive的基本操作和数据分析。资源文件的主要内容包括在Hive中建立数据库和外部表,并将HDFS中的CSV文件导入到Hive表中,然后进行一系列的数据分析操作。
练习内容
1. 建立数据库和外部表
在Hive中建立一个名为hive
的数据库,并在该数据库中创建一个外部表party
。将HDFS路径/party.csv
中的数据导入到该表中。使用命令查看表中的前十条记录,并截图保存。
2. 数据分析题目
完成以下数据分析题目:
- 统计历届春晚的节目数目:计算所有春晚节目的总数。
- 统计每种类型节目的数量并降序排序:统计不同类型节目的数量,并按数量降序排列。
- 统计相声类节目历年的数目:统计每年相声类节目的数量。
- 统计“冯巩”历年春晚的节目数量:统计冯巩在历年春晚中表演的节目数量。
- 统计节目中含有“乐”字的节目名称和类型:查找节目名称中含有“乐”字的节目,并列出其名称和类型。
- 查询每个演员上春晚的次数:统计每个演员在春晚中表演的次数。
使用说明
- 下载资源文件:从本仓库下载资源文件,文件名为
party.csv
。 - 导入数据:将
party.csv
文件上传到HDFS路径/party.csv
。 - 建立Hive数据库和表:按照练习内容中的步骤,在Hive中建立数据库和外部表,并将数据导入。
- 执行数据分析:根据题目要求,编写Hive查询语句,完成数据分析任务。
注意事项
- 确保Hive环境已正确配置,并且HDFS路径可用。
- 在执行查询时,注意数据类型和字段名称的匹配。
- 完成每个题目后,保存查询结果并截图,以便后续查看和验证。
通过完成本练习,您将能够熟练掌握Hive的基本操作,并具备一定的数据分析能力。