vc2010 sse指令优化效果明显
2015-10-16 17:07
246 查看
对于大量浮点数运算,用sse指令优化的效果是非常明显的。
vs2010的编译器内置函数([Compiler Intrinsics])支持see指令,所以程序员不必痛苦的用汇编指令来实现sse指令优化,关于详细的sse指令说明参见microsoft的官方文档
Streaming SIMD Extensions (SSE)(点击打开链接)
下面这段代码用简单的循环实现两个浮点数组的点积之和,用sse指令重写之后效率相差4倍多。其实道理也很简单,每条sse指令可以实现128位数的运算,对float型数据,就是4组float同时运算,循环次数减少4倍,效率自然也能提高4倍。
sse指令优化后的代码
关于哪些cpu支持sse指令的问题,这个不用太担心,intel的cpu在386以后都支持了,所有基于x86架构的cpu都支持sse(包括amd或其他品牌).
也可以通过程序检测cpu是否支持sse,参见
C++环境测试CPU是否支持MMX,SSE等(点击打开链接)
gcc编译也支持sse,调用方法也差不多,还在实现中。
vs2010的编译器内置函数([Compiler Intrinsics])支持see指令,所以程序员不必痛苦的用汇编指令来实现sse指令优化,关于详细的sse指令说明参见microsoft的官方文档
Streaming SIMD Extensions (SSE)(点击打开链接)
下面这段代码用简单的循环实现两个浮点数组的点积之和,用sse指令重写之后效率相差4倍多。其实道理也很简单,每条sse指令可以实现128位数的运算,对float型数据,就是4组float同时运算,循环次数减少4倍,效率自然也能提高4倍。
double dot_product_default(const float* f1, const float* f2) { double sum = (double) 0.0; for (unsigned int i = 0; i < CODE_FLOAT_NUM; i++) sum += (*f1++) * (*f2++); return sum; }
sse指令优化后的代码
#include <cstdlib> #include <cmath> #include <mmintrin.h> #pragma pack(16) //16字节对齐,因为sse是每次处理128位数据,所以代码16字节对齐,才能更好的发挥sse的性能 #ifndef CODE_FLOAT_NUM #define CODE_FLOAT_NUM 210 #endif double dot_product_sse(const float* f1, const float* f2) { __m128* src1=(__m128*)f1; __m128* src2=(__m128*)f2; __m128 m1=_mm_setzero_ps(); //CODE_FLOAT_NUM>>2循环次数减少4倍 for (unsigned int i = 0; i < CODE_FLOAT_NUM>>2; i++,src1++,src2++){ m1=_mm_add_ps(m1,_mm_mul_ps(*src1,*src2));//4对float相乘后结果累加到m1中 } #if CODE_FLOAT_NUM%4==1 //如果数据长度不是4的倍数,剩余的1个float要转换后才能用sse指令计算 __m128 t1=_mm_load_ss(*(float*)src1); __m128 t2=_mm_load_ss(*(float*)src2); m1=_mm_add_ps(m1,_mm_mul_ps(t1,t2)); #elif CODE_FLOAT_NUM%4==2 //如果数据长度不是4的倍数,剩余的2个float要转换后才能用sse指令计算 __m128 z=_mm_setzero_ps(); __m128 t1=_mm_shuffle_ps(*src1,z,_MM_SHUFFLE(0,0,1,0));//将高位的2个float置0 __m128 t2=_mm_shuffle_ps(*src2,z,_MM_SHUFFLE(0,0,1,0));//将高位的2个float置0 m1=_mm_add_ps(m1,_mm_mul_ps(t1,t2)); #elif CODE_FLOAT_NUM%4==3 //如果数据长度不是4的倍数,剩余的3个float要转换后才能用sse指令计算 __m128 t1=*src1; __m128 t2=*src2; t1.m128_f32[3]=0;//将最高的float置0 t2.m128_f32[3]=0;//将最高的float置0 m1=_mm_add_ps(m1,_mm_mul_ps(t1,t2)); #endif return m1.m128_f32[0]+m1.m128_f32[1]+m1.m128_f32[2]+m1.m128_f32[3]; //最后将4个float的累加合再累加作为返回值 }
关于哪些cpu支持sse指令的问题,这个不用太担心,intel的cpu在386以后都支持了,所有基于x86架构的cpu都支持sse(包括amd或其他品牌).
也可以通过程序检测cpu是否支持sse,参见
C++环境测试CPU是否支持MMX,SSE等(点击打开链接)
gcc编译也支持sse,调用方法也差不多,还在实现中。
相关文章推荐
- MySQL 优化
- Google排名优化的几个影响因素
- DB2优化(简易版)
- Mysql limit 优化,百万至千万级快速分页 复合索引的引用并应用于轻量级框架
- C#中尾递归的使用、优化及编译器优化
- 优化Ruby脚本效率实例分享
- Asp编码优化技巧
- 如何监测和优化OLAP数据库
- mysql -参数thread_cache_size优化方法 小结
- 详解mysql的limit经典用法及优化实例
- oracle数据库sql的优化总结
- SQL优化经验总结
- SQL优化技巧指南
- SQL Server优化50法汇总
- C++快速排序的分析与优化详解
- 手把手教你如何优化C语言程序
- mysql 分页优化解析
- 非常不错的MySQL优化的8条经验
- 优化Node.js Web应用运行速度的10个技巧
- JavaScript学习笔记(十七)js 优化