宝可梦数据集分析及预测

2022-12-07

宝可梦数据集分析及预测

简介

本资源文件提供了一个宝可梦数据集的分析及预测项目。该项目利用Python平台上的Numpy、Pandas、Matplotlib以及机器学习算法库scikit-learn,对1013只精灵宝可梦的数据集进行分析和预测。通过对数据集的抽取、清洗、转换和KNeighborsClassifier模型的训练,最终将预测宝可梦是否属于传奇宝可梦、神话宝可梦、超进化宝可梦三类。

项目内容

  1. 数据集和代码下载
    • 提供了宝可梦数据集的下载链接。
    • 提供了项目代码的下载链接。
  2. 摘要
    • 本文利用基于Python平台的Numpy、Pandas、Matplotlib以及机器学习算法库scikit-learn,提供的有监督学习的机械学习算法KNeighborsClassifier分析模型,对1013只精灵宝可梦的数据集进行分析预测。
    • 通过对数据集的抽取、清洗、转换和KNeighborsClassifier模型的训练,最终将预测宝可梦是否属于传奇宝可梦、神话宝可梦、超进化宝可梦三类。
  3. 关键技术
    • numpy: Python支持科学计算的重要拓展库,提供了强大的N维数组及其相关运算、复杂的广播函数、C/C++和Fortran代码集成工具以及线性代数、傅里叶变换和随机数生成等功能。
    • pandas: 对数据的处理是为数据的分析服务的,提供了各种数据处理方法、工具,基于数理统计学出发,包含了日常应用中的众多数据分析方法。
    • matplotlib: 数据可视化只是数据分析中的部分,其目的在于使用Python中强大的标准图形库matplotlib在数据分析领域有很高的地位,而且具有丰富的扩展,能实现更强大的功能。
    • sklearn: 一个Python第三方提供的非常强力的机器学习库,包含了从数据预处理到训练模型的各个方面。
  4. 数据分析
    • 导入库(含机器学习库)
    • 导入数据集
    • 每一代精灵宝可梦的数量
    • 传说、神话在每代精灵的数量
    • 精灵属性数量(柱状图)
    • 传奇/神话精灵的属性分布(饼图)
    • 统计双系宝可梦的数量
    • 战斗分析
  5. 预测
    • 清洗数据,划分数据集
    • 使用三种算法预测精灵级别(传奇/神话)
    • KNeighborsClassifier调参

使用方法

  1. 下载数据集和代码文件。
  2. 按照文章中的步骤导入所需的库。
  3. 运行代码进行数据分析和预测。

参考文献

  • [1] 胡汝鹏, 许新华, 虞烨青, 黄瑾. 基于Matplotlib的学生宿舍电网负荷可视化分析
  • [2] 宝可梦数据集的练习(预测模型)
  • [3] Python数据分析–平民最强宝可梦

注意事项

  • 文章中的matplotlib可视化部分图例使用了中文,不同环境下运行可能会出现乱码,解决方法请参考相关文档。
  • 项目代码和数据集仅供学习和研究使用,请勿用于商业用途。

下载链接

宝可梦数据集分析及预测