小白教程:Ubuntu下使用Darknet/YOLOV3训练自己的数据集
小白教程:Ubuntu下使用Darknet/YOLOV3训练自己的数据集
YOLOV3官网教程:https://pjreddie.com/darknet/yolo/
使用预训练模型进行检测
git clone https://github.com/pjreddie/darknet(如果安装不了,先试试sudo apt-get install git) cd darknet make wget https://pjreddie.com/media/files/yolov3.weights ./darknet detect cfg/yolov3.cfg yolov3.weights data/dog.jpg
我们没有使用OpenCV编译Darknet,因此无法直接显示检测。 相反,它将它们保存在predictions.png中。 您可以打开它以查看检测到的对象。
多个图像
./darknet detect cfg/yolov3.cfg yolov3.weights
输入图片路径:
data/horses.jpg
可以在darknet文件夹下看到prediction.jpg
它将提示您尝试更多路径来尝试不同的图像。完成后Ctrl-C用于退出程序。
更改检测阈值
默认情况下,YOLO仅显示检测到的置信度为.25或更高的对象。您可以通过将-thresh 标志传递给yolo命令来更改此设置。例如,要显示所有检测,您可以将阈值设置为0:
./darknet detect cfg/yolov3.cfg yolov3.weights data/dog.jpg -thresh 0
微小的YOLOv3
对于受限环境,我们有一个非常小的模型yolov3-tiny。要使用此模型,请先下载权重:
wget https://pjreddie.com/media/files/yolov3-tiny.weights
然后使用微小的配置文件和权重运行检测器:
./darknet detect cfg/yolov3-tiny.cfg yolov3-tiny.weights data/dog.jpg
网络摄像头上的实时检测
如果您看不到结果,则在测试数据上运行YOLO并不是很有趣。而不是在一堆图像上运行它让我们在网络摄像头的输入上运行它!
要运行此演示,您需要使用CUDA和OpenCV编译Darknet。然后运行命令:
使用CUDA编译(按照这个博客安装CUDAhttps://blog.csdn.net/jonms/article/details/79318566)
CPU上的Darknet速度很快,但它在GPU上的速度要快500倍!你必须有一个Nvidia GPU,你必须安装CUDA(
安装CUDA后,Makefile将基本目录中的第一行更改为:
GPU=1
现在您可以make启用项目和CUDA。默认情况下,它将在系统的第0个图形卡上运行网络(如果您正确安装了CUDA,则可以使用列出您的图形卡nvidia-smi)。如果你想更改Darknet使用的卡,你可以给它一个可选的命令行标志-i ,如:
./darknet -i 1 imagenet test cfg/alexnet.cfg alexnet.weights
如果您使用CUDA进行编译但想要进行CPU计算,无论出于何种原因您都可以使用-nogpuCPU来代替:
./darknet -nogpu imagenet test cfg/alexnet.cfg alexnet.weights
享受您新的超快速神经网络!
使用OpenCV进行编译
默认情况下,Darknet stb_image.h用于图像加载。如果你想要更多支持奇怪的格式,你可以使用OpenCV!OpenCV还允许您查看图像和检测,而无需将其保存到磁盘。
首先安装OpenCV。如果你从源代码执行此操作,它将是漫长而复杂的,因此请尝试让包管理器为您执行此操作。
接下来,将第二行更改为Makefile:
OPENCV=1
你完成了!要试一试,首先要重新开始make。
然后使用imtest例程来测试图像加载和显示:
./darknet imtest data/eagle.jpg
如果你有一堆老鹰的窗户,你就成功了!他们可能看起来像:
继续前面的网络摄像头上的实时检测
./darknet detector demo cfg/coco.data cfg/yolov3.cfg yolov3.weights
YOLO将显示当前的FPS和预测类以及在其上绘制边界框的图像。
您需要连接到OpenCV可以连接的计算机的网络摄像头,否则它将无法工作。如果您连接了多个网络摄像头并想要选择使用哪个网络摄像头,则可以传递标记-c 以进行选择(OpenCV 0默认使用网络摄像头)。
如果OpenCV可以读取视频,您也可以在视频文件上运行它:这就是我们制作YouTube视频的方式。
./darknet detector demo cfg/coco.data cfg/yolov3.cfg yolov3.weights <video file>
关于VOC的培训YOLO
如果您想要使用不同的训练方案,超参数或数据集,您可以从头开始训练YOLO。以下是如何使其在Pascal VOC数据集上运行。
获取Pascal VOC数据
要训练YOLO,您将需要2007年至2012年的所有VOC数据。您可以在此处找到数据的链接。要获取所有数据,在darknet下新建一个文件夹VOCdevkit,并从该目录运行:
wget https://pjreddie.com/media/files/VOCtrainval_11-May-2012.tar wget https://pjreddie.com/media/files/VOCtrainval_06-Nov-2007.tar wget https://pjreddie.com/media/files/VOCtest_06-Nov-2007.tar tar xf VOCtrainval_11-May-2012.tar tar xf VOCtrainval_06-Nov-2007.tar tar xf VOCtest_06-Nov-2007.tar
为VOC生成标签
现在我们需要生成Darknet使用的标签文件。Darknet希望.txt每个图像都有一个文件,图像中的每个地面实况对象都有一行,如下所示:
<object-class> <x> <y> <width> <height>
其中x,y,width,和height相对于图像的宽度和高度。要生成这些文件,需要执行如下操作。
wget https://pjreddie.com/media/files/voc_label.py py 20000 thon voc_label.py ls
cat 2007_train.txt 2007_val.txt 2012_*.txt > train.txt
将2007和2012所有训练文件放在一个一起。
修改Pascal数据的Cfg
现在转到Darknet目录。我们必须更改cfg/voc.data配置文件以指向您的数据:
1 classes= 20 2 train = <path-to-voc>/train.txt 3 valid = <path-to-voc>2007_test.txt 4 names = data/voc.names 5 backup = backup
下载预训练卷积权重
对于训练,我们使用在Imagenet上预训练的卷积权重。我们使用darknet53模型中的权重。您可以在此处下载卷积图层的权重(76 MB)。
wget https://pjreddie.com/media/files/darknet53.conv.74
训练模型
现在我们可以训练!运行命令:
./darknet detector train cfg/voc.data cfg/yolov3-voc.cfg darknet53.conv.74
在COCO上培训YOLO
如果您想要使用不同的训练方案,超参数或数据集,您可以从头开始训练YOLO。以下是如何使用COCO数据集。
获取COCO数据
要训练YOLO,您需要所有COCO数据和标签。该脚本scripts/get_coco_dataset.sh将为您完成此操作。找出您想要放置COCO数据并下载它的位置,例如:
cp scripts/get_coco_dataset.sh data cd data bash get_coco_dataset.sh
现在您应该为Darknet生成所有数据和标签。
修改COCO的cfg
现在转到Darknet目录。我们必须更改cfg/coco.data配置文件以指向您的数据:
您还应该修改您的模型cfg以进行培训而不是测试。cfg/yolo.cfg应该是这样的:
训练模型
现在我们可以训练!运行命令:
./darknet detector train cfg/coco.data cfg/yolov3.cfg darknet53.conv.74
如果你想使用多个gpus运行:
./darknet detector train cfg/coco.data cfg/yolov3.cfg darknet53.conv.74 -gpus 0,1,2,3
如果要从检查点停止并重新启动训练:
./darknet detector train cfg/coco.data cfg/yolov3.cfg backup/yolov3.backup -gpus 0,1,2,3
打开图像数据集上的YOLOv3
wget https://pjreddie.com/media/files/yolov3-openimages.weights ./darknet detector test cfg/openimages.data cfg/yolov3-openimages.cfg yolov3-openimages.weights
1.获取数据与标签
(感谢大佬分享https://blog.csdn.net/weixin_39449466/article/details/80582197)
将图片转换为xml格式,随后再转换为txt.
1.1获取图片并使用labelimg标注图片生成xml数据
使用标注工具labelimg手动给每一张图片加标签生成xml文件格式放入darknet/eye/xml文件夹中,准备好你要标记的图片,这里用的是FDDB数据库,训练数据集然后自动检测眼睛。(我创建了一个名为eye的文件夹,下载的图片放在了eye/Image,训练了200张)
1.1.1下载Iabelimg(https://github.com/tzutalin/labelImg)
sudo apt-get install pyqt4-dev-tools # 安装PyQt4 sudo pip install lxml (# 安装lxml,如果报错,可以试试下面语句sudo apt-get install python-lxml) git clone https://github.com/tzutalin/labelImg.git cd labelImg make all ./labelImg.py
1.1.2 使用方法
(1)修改默认的xml文件保存位置,使用快捷键“Ctrl+R”,改为自定义位置,这里的路径一定不能包含中文,否则无法保存。
(2)打开data/predefined_classes.txt,修改默认类别,比如改成你要标注的对象名称。这里就写eye就行
(3)“Open Dir”打开图片文件夹,选择第一张图片开始进行标注,使用“Create RectBox”或者“Ctrl+N”开始画框,单击结束画框,再双击选择类别。完成一张图片后点击“Save”保存,此时XML文件已经保存到本地了。点击“Next Image”转到下一张图片。
(4)标注过程中可随时返回进行修改,后保存的文件会覆盖之前的。
1.2将xml转换成为darknet能读入的txt格式文件
1.2.1创建一个名为picaddress.py的文件
复制以下代码(记得把路径改成自己的,需要顶头写,要不不好使)
#coding=utf-8 import os import os.path """ 将所有的图片文件名写进txt文件里 """ pathh = "/home/yaoyao/darknet/eye/Image/" for filenames in os.walk(pathh): filenames = list(filenames) filenames = filenames[2] for filename in filenames: print(filename) with open ("eyes_train.txt",'a') as f: f.write(pathh+filename+'\n')
在终端执行python picaddress.py,它自动生成eyes_train.txt,他保存了所有图片的路径。
1.2.2 创建文件名为voc_label.py的文件
复制以下代码(记得将路径改成自己的,把所有#后面的注释删掉,要不然运行不了)
import xml.etree.ElementTree as ET import pickle import os from os import listdir, getcwd from os.path import join sets=[] classes = ["eyes"] #原样保留。size为图片大小 # 将ROI的坐标转换为yolo需要的坐标 # size是图片的w和h # box里保存的是ROI的坐标(x,y的最大值和最小值) # 返回值为ROI中心点相对于图片大小的比例坐标,和ROI的w、h相对于图片大小的比例 def convert(size, box): dw = 1./size[0] dh = 1./size[1] x = (box[0] + box[1])/2.0 y = (box[2] + box[3])/2.0 w = box[1] - box[0] h = box[3] - box[2] x = x*dw w = w*dw y = y*dh h = h*dh return (x,y,w,h) #对于单个xml的处理 def convert_annotation(image_id): image_add = os.path.split(image_id)[1] #截取文件名带后缀 image_add = image_add[0:image_add.find('.', 1)]#删除后缀,现在只有文件名没有后缀 in_file = open('/home/yaoyao/darknet/eye/xml/%s.xml'%(image_add)) print('now write to:/home/yaoyao/darknet/eye/eye_labels/%s.txt' % (image_add)) out_file = open('/home/yaoyao/darknet/eye/eye_labels/%s.txt'%(image_add), 'w') tree=ET.parse(in_file) root = tree.getroot() for obj in root.findall("object"): # obj.append("number") = obj.find('name').text obj.find('name').text = "eyes" print(obj.find('name').text) tree.write('/home/yaoyao/darknet/eye/xml/' + image_add + '.xml') size = root.find('size') w = int(size.find('width').text) h = int(size.find('height').text) # 如果训练标签中的品种不在程序预定品种,或者difficult = 1,跳过此object for obj in root.iter('object'): #difficult = obj.find('difficult').text cls = obj.find('name').text if cls not in classes:# or int(difficult) == 1: continue cls_id = classes.index(cls) xmlbox = obj.find('bndbox') # b是每个Object中,一个bndbox上下左右像素的元组 b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text)) bb = convert((w,h), b) out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n') wd = getcwd() if not os.path.exists('/home/yaoyao/darknet/eye/eye_labels/'): os.makedirs('/home/yaoyao/darknet/eye/eye_labels/') image_adds = open("eyes_train.txt") for image_add in image_adds: image_add = image_add.strip() print (image_add) convert_annotation(image_add)
在终端输入,python voc_label.py,自动生成eye_labels文件夹,里面包含.txt文件. 随后便可以将eyes_train.txt分出来一部分生成文件名为eyes_test.txt的文件作为验证集。将eyes_label文件夹下的txt文件全部复制到Image文件夹下,图片与他们的txt标签文件一一对应。
2.修改配置文件
2.1修改.cfg文件
在cfg文件夹下复制不会报错的yolo.cfg复制为yolo-eyes.cfg(这里我将yolov2.cfg复制并重命名),随后对yolo-eyes.cfg进行修改,类别为1,即classes=1.
需要训练时将前四行中的testing注释掉,使用training参数.
[net] # Testing #batch=1 #subdivisions=1 # Training
注:因为内存限制最后将batch和subdivision修改为1.
如果后续训练过程中会发散,则可以调整学习率,将学习率从0.001变得再小一点.
learning_rate=0.00001#学习率可以变得再小一点,避免训练过程中发散 burn_in=1000 max_batches = 500200#训练步长可以在这一步调整,原来是500200次 policy=steps steps=400000 scales=.1,.1
更改[region]中的classes为1,根据filters=(classes+coods+1)∗numfilters=(classes+coods+1)∗num的公式,修改最后一个[convolutional]的filter改为30.
[convolutional] batch_normalize=1 size=3 stride=1 pad=1 filters=1024 activation=leaky [convolutional] size=1 stride=1 pad=1 filters=30 #修改这里的filter为30 activation=linear [region] anchors = 0.57273, 0.677385, 1.87446, 2.06253, 3.33843, 5.47434, 7.88282, 3.52778, 9.77052, 9.16828 bias_match=1 classes=1#修改种类为1 coords=4 num=5 softmax=1 jitter=.3 rescore=1 object_scale=5 noobject_scale=1 class_scale=1 coord_scale=1 absolute=1 thresh = .1 random=0#默认random为1,但是因为因为内存限制,将random改为0.
2.2新建cfg/eyes.data文件
终端中输入
vim cfg/eyes.data
如果出现The program 'vim’can be found in the following packages等,就是表示你没有安装vim,请先输入命令安装
sudo apt-get install vim
在eyes.data文件中写下以下参数:
classes=1 train=/home/yaoyao/darknet/eye/eyes_train.txt valid=/home/yaoyao/darknet/eye/eyes_test.txt names=data/eyes.names backup=backup
这里说明一下,怎么退出编辑状态,按esc先,退出保存的,则输入【:wq】;强制保存退出,则输入【:wq!】;要退出,但是不保存,输入【:q】,回车键即可退出,无法退出,则在【:q!】加入一个叹号回车键就行了。(ubuntu在终端编辑完配置文件怎么退出_百度经验 https://jingyan.baidu.com/article/5553fa8284fc7865a239341a.html)
names是训练的名字,backup是在训练过程中相应步数的权重文件文件夹.
vim data/eyes.names
生成data/eyes.names文件并写入 *eyes *类别.
生成backup文件夹.
mkdir backup
3.开始训练
./darknet detector train cfg/eyes.data cfg/yolo-eyes.cfg | tee person_train_log.txt
为了可视化,加上的| tee person_train_log.txt
可以使用GPU监视命令,来查看GPU使用情况.
watch -n 1 nvidia-smi(这个只支持nvidia显卡的电脑,AMD显卡的不行)
训练log中各参数的意义:
Region Avg IOU:平均的IOU,代表预测的bounding box和ground truth的交集与并集之比,期望该值趋近于1。 Avg Recall: 这个表示平均召回率, 意思是 检测出物体的个数 除以 标注的所有物体个数。期望该值趋近1 Class:是标注物体的概率,期望该值趋近于1. Obj:期望该值趋近于1. No Obj:期望该值越来越小但不为零. avg:平均损失,期望该值趋近于0 count: 标注的所有物体的个数。 如果 count = 6, recall = 0.66667, 就是表示一共有6个物体(可能包含不同类别,这个不管类别),然后我预测出来了4个,所以Recall 就是 4 除以 6 = 0.66667 。 rate:当前学习率
4.测试
在GTX1050显卡(2G)训练了大约不到两天后在backup文件夹中可以看到所有的backup文件。
其中yolo-eyes_final.weights便是训练了50W次后的训练权重。
我在darknet中放入了一张照片名为prediction.jpg
在终端输入命令测试:
./darknet detect cfg/yolo-eyes.cfg backup/yolo-eyes_final.weights prediction.jpg -thresh 0.4
如果中途终止,比如训练了2000次,想看下效果,就输入
./darknet detect cfg/yolo-eyes.cfg backup/yolo-eyes_2000.weights prediction.jpg -thresh 0.4
这时候你看到的可能是满屏都是框,因为还没训练好,继续训练输入
./darknet detector train cfg/eyes.data cfg/yolo-eyes.cfg backup/yolo-eyes_2000.weights| tee person_train_log.txt
5.训练过程中的可视化
./darknet detector train cfg/eyes.data cfg/yolo-eyes.cfg backup/yolo-eyes_2000.weights| tee person_train_log.txt
在前面的训练命令后面加上| tee person_train_log.txt即可,保存log时会生成两个文件,文件1里保存的是网络加载信息和checkout点保存信息,person_train_log.txt中保存的是训练信息。 在使用脚本绘制变化曲线之前,需要先使用extract_log.py脚本,格式化log,用生成的新的log文件供可视化工具绘图,格式化log的extract_log.py脚本如下:
# coding=utf-8 # 该文件用来提取训练log,去除不可解析的log后使log文件格式化,生成新的log文件供可视化工具绘图 def extract_log(log_file,new_log_file,key_word): f = open(log_file) train_log = open(new_log_file, 'w') for line in f: # 去除多gpu的同步log if 'Syncing' in line: continue # 去除除零错误的log if 'nan' in line: continue if key_word in line: train_log.write(line) f.close() train_log.close() extract_log('person_train_log.txt','person_train_log_loss.txt','images') #voc_train_log.txt 用于绘制loss曲线 extract_log('person_train_log.txt','person_train_log_iou.txt','IOU')
使用train_loss_visualization.py脚本可以绘制loss变化曲线
import pandas as pd import numpy as np import matplotlib.pyplot as plt #%matplotlib inline lines =9873 result = pd.read_csv('person_train_log_loss.txt', skiprows=[x for x in range(lines) if ((x%10!=9) |(x<1000))] ,error_bad_lines=False, names=['loss', 'avg', 'rate', 'seconds', 'images']) result.head() result['loss']=result['loss'].str.split(' ').str.get(1) result['avg']=result['avg'].str.split(' ').str.get(1) result['rate']=result['rate'].str.split(' ').str.get(1) result['seconds']=result['seconds'].str.split(' ').str.get(1) result['images']=result['images'].str.split(' ').str.get(1) result.head() result.tail() #print(result.head()) # print(result.tail()) # print(result.dtypes) print(result['loss']) print(result['avg']) print(result['rate']) print(result['seconds']) print(result['images']) result['loss']=pd.to_numeric(result['loss']) result['avg']=pd.to_numeric(result['avg']) result['rate']=pd.to_numeric(result['rate']) result['seconds']=pd.to_numeric(result['seconds']) result['images']=pd.to_numeric(result['images']) result.dtypes fig = plt.figure() ax = fig.add_subplot(1, 1, 1) ax.plot(result['avg'].values,label='avg_loss') #ax.plot(result['loss'].values,label='loss') ax.legend(loc='best') ax.set_title('The loss curves') ax.set_xlabel('batches') fig.savefig('avg_loss') #fig.savefig('loss')
可以通过分析损失变化曲线,修改cfg中的学习率变化策略,比如上图:模型在100000万次迭代后损失下降速度非常慢,几乎没有下降。结合log和cfg文件发现,自定义的学习率变化策略在十万次迭代时会减小十倍,十万次迭代后学习率下降到非常小的程度,导致损失下降速度降低。修改cfg中的学习率变化策略,10万次迭代时不改变学习率,30万次时再降低。
除了可视化loss,还可以可视化Avg IOU,Avg Recall等参数
可视化’Region Avg IOU’, ‘Class’, ‘Obj’, ‘No Obj’, ‘Avg Recall’,’count’这些参数可以使用脚本train_iou_visualization.py,使用方式和train_loss_visualization.py相同,train_iou_visualization.py脚本如下:
import pandas as pd import numpy as np import matplotlib.pyplot as plt #%matplotlib inline lines =9873 result = pd.read_csv('voc_train_log_iou.txt', skiprows=[x for x in range(lines) if (x%10==0 or x%10==9) ] ,error_bad_lines=False, names=['Region Avg IOU', 'Class', 'Obj', 'No Obj', 'Avg Recall','count']) result.head() result['Region Avg IOU']=result['Region Avg IOU'].str.split(': ').str.get(1) result['Class']=result['Class'].str.split(': ').str.get(1) result['Obj']=result['Obj'].str.split(': ').str.get(1) result['No Obj']=result['No Obj'].str.split(': ').str.get(1) result['Avg Recall']=result['Avg Recall'].str.split(': ').str.get(1) result['count']=result['count'].str.split(': ').str.get(1) result.head() result.tail() #print(result.head()) # print(result.tail()) # print(result.dtypes) print(result['Region Avg IOU']) result['Region Avg IOU']=pd.to_numeric(result['Region Avg IOU']) result['Class']=pd.to_numeric(result['Class']) result['Obj']=pd.to_numeric(result['Obj']) result['No Obj']=pd.to_numeric(result['No Obj']) result['Avg Recall']=pd.to_numeric(result['Avg Recall']) result['count']=pd.to_numeric(result['count']) result.dtypes fig = plt.figure() ax = fig.add_subplot(1, 1, 1) ax.plot(result['Region Avg IOU'].values,label='Region Avg IOU') #ax.plot(result['Class'].values,label='Class') #ax.plot(result['Obj'].values,label='Obj') #ax.plot(result['No Obj'].values,label='No Obj') #ax.plot(result['Avg Recall'].values,label='Avg Recall') #ax.plot(result['count'].values,label='count') ax.legend(loc='best') #ax.set_title('The Region Avg IOU curves') ax.set_title('The Region Avg IOU curves') ax.set_xlabel('batches') #fig.savefig('Avg IOU') fig.savefig('Region Avg IOU')xianka
- Train YOLOv2 on my own dataset(使用YOLOv2训练自己的数据集)
- ubuntu 系统下使用Fast rcnn 训练自己数据
- 修改别人标注好的数据集xml文件,使用别人的数据集训练自己的网络
- FAIR开源目标识别平台Detectron从入门到放弃(二) 使用自己的数据集(voc2007格式)训练Detectron
- 转载:实用教程!使用YOLOv3训练自己数据的目标检测
- (更新视频教程)Tensorflow object detection API 搭建属于自己的物体识别模型(2)——训练并使用自己的模型
- 使用py-faster-rcnn训练自己的数据集
- 深度学习(十四):详解Matconvnet使用imagenet模型训练自己的数据集
- SSD(Single Shot MultiBox Detector):ubuntu16安装及训练自己的数据集(VOC2007格式)过程记录
- 详解Matconvnet使用imagenet模型训练自己的数据集
- TensorFlow Object Detection API教程——利用自己制作的数据集进行训练预测和测试
- 使用TensorFlow slim文件夹当中的inception_resnet_v2网络训练自己的分类数据集
- ubuntu16.04 caffe框架下faster-rcnn训练自己的数据集(系统自带python2.7)
- YOLOv3 ubuntu 配置及训练自己的VOC格式数据集
- caffe学习笔记(五)--使用自己的数据集第一次进行训练
- 使用自己训练的KITTI数据集,用Python做detectnet侦测
- 使用yolov2训练自己的数据集
- 使用labelIImg制作自己的数据集(VOC2007格式)用于Faster-RCNN训练
- 机器学习 - 使用 Caffe 训练自己的数据集
- 使用TensorFlow slim文件夹当中的inception_v4网络训练自己的分类数据集