caffe相关问题(持续更新。。。。)
2017-08-21 17:31
375 查看
case1: syncedmem.cpp:56] Check failed: error == cudaSuccess (2 vs. 0) out of memory
这种情况下,可能有进程在使用显存,而且使用很多,已经耗尽显存了。无法再分配显存。
使用:nvidia-smi查看显存使用情况:
test:
现在看看这个batch_size是啥子意思:
这个是网络没迭代一次处理的图片数目,如果你有12800张照片,这个batch_size设置为128,则训练完所有的图片,至少需要迭代100次。
#############################
在使用ssd的mobilenet时候
发现网络输出提示:
Couldn't find any detections然后直接crash掉。
查看网络结构,发现如下的设置:
code_type: CENTER_SIZE
keep_top_k: 100
confidence_threshold: 0.25
我目下使用自己的数据集进行训练,只有四种物体。之前未crash掉是因为物体种类有21种,检测成其他物体且在0.25左右的可能性很高。为了证明这个推断,查看ssd算法原始deploy的输出值设定:
code_type: CENTER_SIZE
keep_top_k: 200
confidence_threshold: 0.01 可以看出是否发生crash与此处的阈值confidence_threshold有关
故而修改此值为0.001,再重新运行网络,不会发生crash的情况了。
这种情况下,可能有进程在使用显存,而且使用很多,已经耗尽显存了。无法再分配显存。
使用:nvidia-smi查看显存使用情况:
Mon Aug 21 17:22:35 2017 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 375.66 Driver Version: 375.66 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 GeForce GTX 960 Off | 0000:01:00.0 On | N/A | | 40% 60C P2 37W / 120W | 1513MiB / 1993MiB | 0% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | 0 1438 G /usr/lib/xorg/Xorg 160MiB | | 0 1500 C /usr/bin/python 44MiB | | 0 3268 G compiz 108MiB | | 0 25749 C ../caffe/build/tools/caffe 1195MiB | +-----------------------------------------------------------------------------+另一种情况是,train和test的prototxt里面的batch_size设置过大,导致显存一次不能载入那么多数据。该小即可:
test:
data_param { source: "/home/gesture1/lmdb/gesture1_test_lmdb" batch_size: 1 backend: LMDB }train:
data_param { source: "/home/gesture1/lmdb/gesture1_trainval_lmdb" batch_size: 1 backend: LMDB }
现在看看这个batch_size是啥子意思:
这个是网络没迭代一次处理的图片数目,如果你有12800张照片,这个batch_size设置为128,则训练完所有的图片,至少需要迭代100次。
#############################
在使用ssd的mobilenet时候
发现网络输出提示:
Couldn't find any detections然后直接crash掉。
查看网络结构,发现如下的设置:
code_type: CENTER_SIZE
keep_top_k: 100
confidence_threshold: 0.25
我目下使用自己的数据集进行训练,只有四种物体。之前未crash掉是因为物体种类有21种,检测成其他物体且在0.25左右的可能性很高。为了证明这个推断,查看ssd算法原始deploy的输出值设定:
code_type: CENTER_SIZE
keep_top_k: 200
confidence_threshold: 0.01 可以看出是否发生crash与此处的阈值confidence_threshold有关
故而修改此值为0.001,再重新运行网络,不会发生crash的情况了。
相关文章推荐
- Java 相关细节问题(持续更新)
- 计算机系统的初次学习(持续更新)------关于showbytes的相关问题
- javascript---遇到关于this的相关问题(解决this)(持续更新中...)
- caffe实际运行中遇到的问题(持续更新)
- Caffe搭建:常见问题解决办法和ubuntu使用中遇到问题解决方法(持续更新)
- React-Native 运行demo遇到的相关问题(持续更新)
- 图论相关问题——持续更新ing
- hadoop2.0 相关问题(持续更新)
- Mysql使用相关问题(持续更新)
- 面试常见问题及相关答案整理(持续更新中)
- Microsoft.Practices.EnterpriseLibrary for .Net2.0使用中的问题(相关问题持续更新)
- ubuntu使用相关问题(持续更新)
- Mark-listview的相关问题---持续更新
- Cent OS相关问题汇总(持续更新)
- Android常见崩溃或闪退的问题描述及原因总结、及与性能相关的模块——持续更新
- javascript---遇到关于this的相关问题(解决this)(持续更新中...)
- win10_x64更新错误解决: 安装一些更新时出现问题,但我们稍后会重试。如果持续出现这些问题,并且你想要搜索Web或联系支持人员以获取相关信息,以下信息可能会对你有帮助:
- Caffe搭建:常见问题解决办法和ubuntu使用中遇到问题(持续更新)
- caffe训练中遇到的一些问题(持续更新......)
- chromium相关问题集合--持续更新中