SIFT GPU 优化思路整理
2015-09-17 08:55
246 查看
1 高斯模糊采用分离滤波器,滤波器的长度容许截断误差2 X 4 + 1
2 Alloc blurBuf, diffBuf in global memory, diffBuf can be used as temp buffer for seperate filter
3 求局部极值点,可以先求邻域内的最值,然后中心点值与最值比较,以确认其是否为极值点
4 改变极值点过滤方案,先要求关键点满足边界响应要求,然后进行Hessian矩阵定位,可以减少计算量
5 极值点插值算法迭代一次即可满足要求?
6 关于Hessian矩阵求解是否有更好的优化方案?此处share memory提供快速IO, 内部计算时?
7 octave间计算的可并行性
8 多图像特征提取时时采用多线程实现多流异步机制,实现GPU卡的满负荷运作(此处要注意每个线程可用最大显存的合理分配)
9 特征点的第二个主方向确认可以在CPU端完成(是否有更好的GPU端解决方案)
10 描述子的生成需要验证GPU端与多线程模式的CPU端算法那个更有优势!
11 绝对值代替平方根?或者采用平方根近似求解方案?
12 图像上/下采样采用更优的GPU核优化
13 输入图像灰度图采用GPU优化方案,则CudaImage赋值时不再需要上传灰度图到GPU,速度肯定有提高
另:是否完整提交关于cudaSift的代码解析(晚些时候再启动,暂时时间紧张)
2 Alloc blurBuf, diffBuf in global memory, diffBuf can be used as temp buffer for seperate filter
3 求局部极值点,可以先求邻域内的最值,然后中心点值与最值比较,以确认其是否为极值点
4 改变极值点过滤方案,先要求关键点满足边界响应要求,然后进行Hessian矩阵定位,可以减少计算量
5 极值点插值算法迭代一次即可满足要求?
6 关于Hessian矩阵求解是否有更好的优化方案?此处share memory提供快速IO, 内部计算时?
7 octave间计算的可并行性
8 多图像特征提取时时采用多线程实现多流异步机制,实现GPU卡的满负荷运作(此处要注意每个线程可用最大显存的合理分配)
9 特征点的第二个主方向确认可以在CPU端完成(是否有更好的GPU端解决方案)
10 描述子的生成需要验证GPU端与多线程模式的CPU端算法那个更有优势!
11 绝对值代替平方根?或者采用平方根近似求解方案?
12 图像上/下采样采用更优的GPU核优化
13 输入图像灰度图采用GPU优化方案,则CudaImage赋值时不再需要上传灰度图到GPU,速度肯定有提高
另:是否完整提交关于cudaSift的代码解析(晚些时候再启动,暂时时间紧张)
相关文章推荐
- android Spinner控件详解
- lintcode做题总结, Sept 15
- lintcode-删除排序链表中的重复数字II-113
- UI中对于选择主题的处理方法
- 正则表达式之group
- MFC去掉窗口右上方最大化最小化关闭按钮
- 情绪一点点
- LeetCode----Triangle
- 24 Ultimate Data Scientists To Follow in the World Today
- 对时间进行排序
- Word使用样式技巧:解决创建目录后出现的打印错误---超链接错误
- Scala中隐式转换内幕操作规则揭秘、最佳实践及其在Spark中的应用源码解析之Scala学习笔记-55
- 【Android应用开发】分享一个录制 Android 屏幕 gif 格式的小技巧
- Xcode启动缓慢+内存快速减少
- Session的生命周期
- LeetCode-Single Number
- 【Android应用开发】分享一个录制 Android 屏幕 gif 格式的小技巧
- JSP四大作用域
- 各种编程语言的深度学习库
- spring+springMVC集成(annotation方式)