NTU-RGB+D数据集介绍
NTU-RGB+D数据集是一个广泛用于计算机视觉研究的大型人体动作识别数据集。该数据集由国立台湾大学(NTU)开发,包含超过56,000个样本,涵盖60种不同的动作类别。这些动作由40名年龄从10岁到35岁的人完成,数据集由微软Kinect v2传感器采集,并使用了三个不同角度的摄像机,采集的数据形式包括深度信息、3D骨骼信息、RGB帧以及红外序列。
数据集特点
- 多模态数据:数据集包含RGB视频、深度图序列、3D骨骼数据和红外视频,提供了丰富的数据形式。
- 多角度采集:使用三个不同角度的摄像机,增加了数据的多样性和复杂性。
- 多类别动作:涵盖40类日常行为动作、9类与健康相关的动作和11类双人相互动作。
数据集结构
数据集在划分训练集和测试集时采用了两种不同的划分标准:
- Cross-Subject:按照人物ID来划分训练集和测试集,训练集包含40,320个样本,测试集包含16,560个样本。
- Cross-View:按相机来划分训练集和测试集,相机1采集的样本作为测试集,相机2和3作为训练集,样本数分别为18,960和37,920。
数据文件命名方式
数据集中每个文件的命名方式如下:
S
后面跟的是设置号(1-17)C
后面跟的是相机ID(1-3)P
后面跟的是人物ID(1-40)R
后面跟的是动作执行的遍数(1-2)A
后面跟的是动作的分类(1-60)
数据格式
每个数据文件包含以下内容:
- 第1行为该样本的帧数
- 第2行为执行动作的人数
- 第3行共有10个数据,分别代表’bodyID’, ‘clipedEdges’, ‘handLeftConfidence’, ‘handLeftState’, ‘handRightConfidence’, ‘handRightState’, ‘isResticted’, ‘leanX’, ‘leanY’, ‘trackingState’
- 第4行代表关节点数
- 第5-29行为25个关节点的信息,每个关节点有12个数据,分别代表’x’, ‘y’, ‘z’, ‘depthX’, ‘depthY’, ‘colorX’, ‘colorY’, ‘orientationW’, ‘orientationX’, ‘orientationY’, ‘orientationZ’, ‘trackingState’
使用场景
NTU-RGB+D数据集适用于多种计算机视觉任务,包括但不限于:
- 人体动作识别
- 行为分析
- 深度学习模型训练
- 多模态数据融合研究
该数据集为研究人员提供了一个重要的资源,可以用于开展人体动作认知、行为识别、行为分析等相关研究,提高人体动作识别和分析的准确性和鲁棒性。