您的位置：首页 > 其它

以矩阵乘法为例了解cpu cache对程序性能的影响

2014-02-07 21:17 876 查看

/*square1.cpp*//*未经优化的矩阵乘法程序*/#include <iostream>using namespace std;#define N 1000int a[N][N] = {0}, b[N][N] = {0}, c[N][N] = {0};int main() { int i, j, k; for (i = 0; i < N; i++) { for (j = 0; j < N; j++) { a[i][j] = i+j; b[i][j] = i+j; } } for (i = 0; i < N; i++) { for (j = 0; j < N; j++) { for (k = 0; k < N; k++) { c[i][j] += a[i][k] * b[k][j]; }
} }}

来自CODE的代码片
square1.cpp

/*square2.cpp*/ /*优化过的矩阵乘法程序*/ #include <iostream> using namespace std; #define N 1000 int a[N][N] = {0}, b[N][N] = {0}, c[N][N] = {0}; int main() { int i, j, k; for (i = 0; i < N; i++) { for (j = 0; j < N; j++) { a[i][j] = i+j; b[i][j] = i+j; } } for (i = 0; i < N; i++) { for (k = 0; k < N; k++) { for (j = 0; j < N; j++) { c[i][j] += a[i][k] * b[k][j]; } } } }

来自CODE的代码片
square2.cpp

两段程序的唯一差别，就是把三层循环中的 j 循环和k 循环的顺序交换了一下。

square1.cpp中因为第三层循环（最内层循环）是对k进行循环，因此b[k][j]是对b逐列进行访问。我们知道内存中二维数组是以行为单位连续存储的，逐列访问将会每次跳1000*4(bytes)。根据cpu cache的替换策略，将会有大量的cache失效。

因此square2.cpp将j循环和k循环交换位置，这样就保证了

c[i][j] += a[i][k] * b[k][j];

这条语句对内存的访问是连续的，增加了cache的命中率，大大提升了程序执行速度。

我们来看一下实测效果：(测试环境：64位双核2.4GHz cpu)

执行时间测试：

时间居然会相差近10倍。可见利用好cpu cache优化我们的程序，是非常有必要掌握的技能。

平时写程序时，也应当尽量使cpu对内存的访问，是尽可能连续的

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

以矩阵乘法为例 了解cpu cache对程序性能的影响

以矩阵乘法为例了解cpu cache对程序性能的影响