全国职业技能大赛大数据赛项十套赛题shtd

2023-12-22

全国职业技能大赛大数据赛项十套赛题（shtd）

项目描述

本项目提供了一个使用Scala编写的Spark工程代码，用于将MySQL数据库shtd_store中的表user_info、sku_info、base_province、base_region、order_info、order_detail的增量数据抽取到Hive的ods库中对应的表中。具体任务如下：

增量抽取数据：从shtd_store库中抽取user_info表的增量数据到Hive的ods库中表user_info。根据ods.user_info表中的operate_time或create_time作为增量字段（即MySQL中每条数据取这两个时间中较大的那个时间作为增量字段去和ods里的这两个字段中较大的时间进行比较），只将新增的数据抽入，字段名称、类型不变。
添加静态分区：同时添加静态分区，分区字段类型为String，且值为当前比赛日的前一天日期（分区字段格式为yyyyMMdd）。
验证分区：使用Hive CLI执行show partitions ods.user_info命令，将结果截图粘贴至对应报告中。

使用说明

环境要求：
- Scala
- Apache Spark
- MySQL
- Hive
配置文件：
- 确保在项目中配置好MySQL和Hive的连接信息。
运行步骤：
- 克隆本仓库到本地。
- 配置好相关环境变量和连接信息。
- 运行Scala编写的Spark工程代码。
- 使用Hive CLI执行show partitions ods.user_info命令，验证分区结果。

贡献

欢迎任何形式的贡献，包括但不限于代码优化、文档改进、问题反馈等。请通过提交Issue或Pull Request来参与本项目的贡献。

许可证

本项目采用MIT许可证。

联系方式

如有任何问题或建议，请通过以下方式联系：

邮箱：[your-email@example.com]
GitHub Issue：链接

感谢您的关注和支持！

下载链接

全国职业技能大赛大数据赛项十套赛题shtd