您的位置:首页 > 其它

VOC、COCO、YOLO数据集标注格式

2019-08-09 15:41 9625 查看
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/pxh_ww/article/details/98961168

PASCAL VOC数据集的标注格式

VOC数据集简介

PASCAL VOC竞赛目标主要是目标识别,其提供的数据集里包含了20类的物体。
person
bird, cat, cow, dog, horse, sheep
aeroplane, bicycle, boat, bus, car, motorbike, train
bottle, chair, dining table, potted plant, sofa, tv/monitor

PASCAL VOC的主要2个任务是(按照其官方网站所述,实际上是5个):

  • 分类: 对于每一个分类,判断该分类是否在测试照片上存在(共20类);
  • 检测:检测目标对象在待测试图片中的位置并给出矩形框坐标(bounding box);
  • Segmentation: 对于待测照片中的任何一个像素,判断哪一个分类包含该像素(如果20个分类没有一个包含该像素,那么该像素属于背景);
    (在给定矩形框位置的情况下)人体动作识别;
    Large Scale Recognition(由ImageNet主办)。

另外,PASCAL VOC利用其训练集的一个子集对外提供2个尝鲜性质的任务:

(无给定矩形框位置的情况下)人体动作识别;
Person Layout: 对于待测照片中的每一个人,预测出这个人的bounding box,以及这个人的头、手、脚的bounding box。

XML标注格式

对于目标检测来说,每一张图片对应一个xml格式的标注文件。所以你会猜到,就像gemfield准备的训练集有8万张照片一样,在存放xml文件的目录里,这里也将会有8万个xml文件。下面是其中一个xml文件的示例:

<?xml version="1.0" encoding="utf-8"?>
<annotation>
<folder>VOC2007</folder>
<filename>test100.mp4_3380.jpeg</filename>
<size>
<width>1280</width>
<height>720</height>
<depth>3</depth>
</size>
<object>
<name>gemfield</name>
<bndbox>
<xmin>549</xmin>
<xmax>715</xmax>
<ymin>257</ymin>
<ymax>289</ymax>
</bndbox>
<truncated>0</truncated>
<difficult>0</difficult>
</object>
<object>
<name>civilnet</name>
<bndbox>
<xmin>842</xmin>
<xmax>1009</xmax>
<ymin>138</ymin>
<ymax>171</ymax>
</bndbox>
<truncated>0</truncated>
<difficult>0</difficult>
</object>
<segmented>0</segmented>
</annotation>

在这个测试图片上,我们标注了2个object,一个是gemfield,另一个是civilnet。

在这个xml例子中:

bndbox是一个轴对齐的矩形,它框住的是目标在照片中的可见部分;
truncated表明这个目标因为各种原因没有被框完整(被截断了),比如说一辆车有一部分在画面外;
occluded是说一个目标的重要部分被遮挡了(不管是被背景的什么东西,还是被另一个待检测目标遮挡);
difficult表明这个待检测目标很难识别,有可能是虽然视觉上很清楚,但是没有上下文的话还是很难确认它属于哪个分类;标为difficult的目标在测试成绩的评估中一般会被忽略。
注意:在一个中, 标签要放在前面,否则的话,目标检测的一个重要工程实现SSD会出现解析数据集错误(另一个重要工程实现py-faster-rcnn则不会)。
https://zhuanlan.zhihu.com/p/33405410

COCO数据集标注格式

COCO数据集的简介

COCO数据集是一个大型的、丰富的物体检测,分割和字幕数据集。这个数据集以scene understanding为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的segmentation进行位置的标定。图像包括91类目标,328,000影像和2,500,000个label。
该数据集主要解决3个问题:目标检测,目标之间的上下文关系,目标的2维上的精确定位。COCO数据集有91类,虽然比ImageNet和SUN类别少,但是每一类的图像多,这有利于获得更多的每类中位于某种特定场景的能力,对比PASCAL VOC,其有更多类和图像。
官网地址:http://cocodataset.org/#home

标注格式JSON文件

COCO数据集JSON文件格式
https://blog.csdn.net/fireflychh/article/details/83040205

YOLO的txt标注文件


https://blog.csdn.net/qq_29762941/article/details/80797790

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: