语义分割常用数据集整理
本资源文件提供了语义分割领域常用的数据集整理,涵盖了2D图片、2.5D图片(RGB-D)和3D图片三类数据集。每个类别的数据集都提供了像素级的标签,可以用来评估模型性能,同时其中一部分工作用到了数据增强来增加标签样本的数量。
数据集分类
1. 2D数据
- PASCAL Visual Object Classes (VOC):包含21个类及其标签,适用于分类、分割、目标检测等任务。
- PASCAL Context:VOC 2010的拓展,带有所有训练图像的像素级标签,包含超过400个类别。
- Microsoft Common Objects in Context (MS COCO):大规模物体检测、分割及文字定位数据集,包含众多类别及大量标签。
- Cityscapes:关注于城市街景的语义理解,包含5k帧的高质量像素级标注和20k的弱标注帧。
- ADE20K/MIT Scene Parsing:为场景分割算法提供了标准的训练和评估平台,包含25000多张图片。
- SiftFlow:包含2688张用LabelMe标注的数据集,分辨率为256*256,包含8种不同的户外场景。
- Stanford background:包含715个图像,标签种类包括天空、树、道路、草、水、建筑物、山脉和前景物体。
- Berkeley Segmentation Dataset (BSD):由彩色图和灰度图组成,共300张(现增加到500张),分为训练集和测试集。
- Youtube-Objects:数据集的图片像素为480*360,共计10167张图片。
- KITTI:主要用于机器人和自动驾驶,包含很多视频,由车辆传感器采集,可用于语义分割。
2. 2.5D数据
- NYU-D V2:包含1449有标签和补全深度的图片。
- SUN-3D:大规模的RGB-D视频数据集,包含41个不同建筑254个不同空间的415个序列。
- SUN RGB-D:由四个不同的传感器捕获,包含10,000张RGB-D图像,密集地注释,包括2D多边形和3D包围盒。
- UW RGB-D Object Dataset:包含使用Kinect 3D摄像机记录的300个常见家庭对象,组织成51个类别。
- ScanNet:RGB-D视频数据,包含1500多个室内场景,共21个类别的对象,其中1201个场景用于训练,312个场景用于测试。
3. 3D数据
- Stanford 2D-3D:包含2D、2.5D和3D数据集,并且都进行了实例级别的标注,包含6个室内区域场景,超过70000张RGB-D图像。
- ShapeNet Core:ShapeNet数据集的子集,包含55个常见物体类别,大约51300张3D图片。
- Sydney Urban Objects Dataset:包含现代街景,共有631张街景图片,包含车辆、行人、标语和树木。
使用说明
本资源文件提供了详细的语义分割数据集整理,适用于计算机视觉领域的研究人员和开发者。每个数据集都提供了像素级的标签,可以用于训练和评估语义分割模型。