UEA与UCR数据集处理资源介绍

2020-05-18

UEA与UCR数据集处理资源介绍

欢迎使用UEA与UCR数据集处理资源包!本资源专为从事时间序列分析的研究人员和开发者设计,旨在简化这两个重要数据集的准备工作。UEA(University of East Anglia)与UCR(University of California, Riverside)数据集是时间序列分类领域的核心资源,涵盖了广泛的现实世界应用场景。

数据集简介

  • UCR数据集:以.tsv格式为主,包含众多单变量及多变量时间序列数据。
  • UEA数据集:通常以.arff格式提供,适用于多变量时间序列,且在部分情况下提供了文本形式的标签。

主要功能

本资源提供Python脚本,实现了以下关键功能:

  1. 数据转换:自动将UCR数据集的TSV格式转换为CSV和XLSX格式,便于使用Pandas等工具处理。
  2. 标签分离:确保每个数据集的标签被单独提取,并与数据主体分开保存。
  3. UEA数据兼容:支持处理UEA数据集的ARFF格式文件,转换为更通用的格式,尤其是针对不适合CSV的文本标签情况,采用XLSX格式存储标签。

文件结构

资源包包含处理脚本和示例转换后的数据集结构说明,帮助您快速了解如何组织您的数据。

技术细节

  • UCR处理脚本:遍历UCRArchive中的所有子目录,分离训练与测试数据及其标签。
  • UEA处理脚本:特别处理ARFF格式,移除注释,处理文本标签,支持存储为Npz、Npy或XLSX格式,灵活性高。

使用指南

  1. 确保你的环境中已安装必要的Python库,如pandas, numpy, scipy.io。
  2. 根据提供的Python脚本修改数据路径。
  3. 运行脚本,自动化处理所需的数据集。
  4. 转换后的数据集将按照指定格式存放,便于后续分析和建模。

注意事项

  • UEA官网链接可能存在变化,请参考资源包内的链接获取最新数据。
  • 大型数据集处理时需注意内存使用,某些格式(如XLSX)可能不适用于极端大的数据集。
  • 解压密码和额外下载链接在原博文中提供,请查阅以获取。

结论

利用此资源,您可以高效地准备UEA与UCR数据集,加速您的研究项目或开发流程。无需手动操作,即可拥有格式友好、易于分析的数据集,无论是进行时间序列分类还是其他相关研究,都将更加便捷。

开始您的时间序列之旅,充分利用这些经过精心处理的数据集,挖掘时间序列数据背后的深刻洞察!


以上即是本资源包的简要介绍,希望能为您的研究和应用带来便利。祝数据分析顺利!

下载链接

UEA与UCR数据集处理资源介绍