以矩阵乘法为例 了解cpu cache对程序性能的影响
2014-02-07 21:17
876 查看
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 | /*square1.cpp*//*未经优化的矩阵乘法程序*/#include <iostream>using namespace std;#define N 1000int a[N][N] = {0}, b[N][N] = {0}, c[N][N] = {0};int main() { int i, j, k; for (i = 0; i < N; i++) { for (j = 0; j < N; j++) { a[i][j] = i+j; b[i][j] = i+j; } } for (i = 0; i < N; i++) { for (j = 0; j < N; j++) { for (k = 0; k < N; k++) { c[i][j] += a[i][k] * b[k][j]; } } }} |
square1.cpp
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 | /*square2.cpp*/ /*优化过的矩阵乘法程序*/ #include <iostream> using namespace std; #define N 1000 int a[N][N] = {0}, b[N][N] = {0}, c[N][N] = {0}; int main() { int i, j, k; for (i = 0; i < N; i++) { for (j = 0; j < N; j++) { a[i][j] = i+j; b[i][j] = i+j; } } for (i = 0; i < N; i++) { for (k = 0; k < N; k++) { for (j = 0; j < N; j++) { c[i][j] += a[i][k] * b[k][j]; } } } } |
square2.cpp
两段程序的唯一差别,就是把 三层循环中的 j 循环 和k 循环的顺序交换了一下。
square1.cpp中因为第三层循环(最内层循环)是对k进行循环,因此b[k][j]是对b逐列进行访问。我们知道内存中二维数组是以行为单位连续存储的,逐列访问将会每次跳1000*4(bytes)。根据cpu cache的替换策略,将会有大量的cache失效。
因此square2.cpp将j循环和k循环交换位置,这样就保证了
c[i][j] += a[i][k] * b[k][j];
这条语句对内存的访问是连续的,增加了cache的命中率,大大提升了程序执行速度。
我们来看一下实测效果:(测试环境:64位双核2.4GHz cpu)
执行时间测试:
时间居然会相差近10倍。 可见利用好cpu cache优化我们的程序,是非常有必要掌握的技能。
平时写程序时,也应当尽量使cpu对内存的访问,是尽可能连续的
相关文章推荐
- 以矩阵乘法为例,了解cpu cache对程序性能的影响
- 程序性能优化探讨(5)——高速缓存、存储器山与矩阵乘法优化
- 程序性能优化探讨(6)——矩阵乘法优化之分块矩阵
- Cache 结构对程序性能的影响
- 程序性能 CPU cache
- CUDA程序性能分析-矩阵乘法
- CUDA程序性能分析-矩阵乘法
- 通过矩阵乘法看内存访问对CPU运算速度的影响
- 高效编程之cache命中对于程序性能的影响
- HDU4920 Matrix multiplication (CPU cache对程序的影响)
- 性能测试-了解硬件之CPU(二)
- J2ME程序开发要注意函数调用对性能的影响
- 程序性能优化之 内存分配影响
- 矩阵乘法的mapreduce程序实现
- NSLog对程序性能的影响
- 程序中使用now()函数对性能的影响
- oj程序调试--矩阵的乘法运算
- 利用 Xdebug+WinCacheGrind 分析PHP程序,找出性能瓶颈
- Kivy A to Z -- 通过绑定进程运行CPU提高Python程序在多核CPU平台上的性能
- 利用Xdebug和WinCacheGrind分析PHP程序,找出性能瓶颈