在细节上提升你的程序的性能
2012-12-26 12:38
441 查看
虽然,这些使用方法看似差别不大,在现在的cpu运行期起来几乎上可以忽略不计,
但是,我们想一下现在软件,每一个都是那么的庞大,一个小项目都是几万行代码,
一个函数中你消耗一点,那么多函数是很大的性能消耗的。举一个不恰当的例子,
如果在百度首页中,每天几亿次的点击率,每一个函数里面都有一个无用++运算,这个i++可以小视吗?
下面的例子是我在虚拟机中运行,其中也会有机器性能不好的原因,但是我觉得这样才会将问题展示的更加的严重。
1.不要将函数作为循环的条件
SIZE= 1024
program 1: time:29ms
p = &a;
for( ; i < SIZE *sizeof(int); i++)
{
p = 1;
p++;
}
program 2: time:1ms
p = &a;
len = SIZE *sizeof(int);
for( ; i < len; i++)
{
p = 1;
p++;
}
原因:因为每次比较条件,函数都需要重新计算的,将会消耗时间。
2. 减少内存访问次数
program:1 time:1ms
i = 0;
for( ; i < 1024; i++)
tmp ++;
program:2 time:7ms
i = 0;
for( ; i < 1024; i++)
tmp = tmp + 1;
原因:内存与cpu的频率差别很大,尽量减少cpu对内存的访问,减少变量引用;
3.去除不必要的分支
program:1 time:3ms
i = 0;
for (tmp = 0; tmp < 100; tmp++)
{
max = min = a[0] ;
for( ; i < 100; i++)
{
if (max > a[i]) max = a[i];
if (min < a[i]) min = a[i];
}
}
program:2 time:2ms
i = 0;
for (tmp = 0; tmp < 100; tmp++)
{
max = min = a[0] ;
for( ; i < 100; i++)
{
if (max > a[i]) max = a[i];
else if (min < a[i]) min = a[i];
}
}
注意:这个平时写代码的时候注意方可,很多时候书上都是这样的写的,大家觉得没什么?不影响程序的运行结果。所以,没有注意。
4.间接寻址比基地址寻址慢,所以将结构体中常用的成员放前面,并且放在一起。(类、接口、文件同理)
program 1: time:11ms
i = 0;
for( ; i < 1000; i++)
{
t.t1 = 1;
t.t3 = 1;
}
program 1: time:7ms
i = 0;
for( ; i < 1000; i++)
{
t.t1 = 1;
t.t2 = 1;
}
原因:将数据放到同一内存页中,减少页面切换,增加缓存的命中率。
a[i][j]使用时间:94s
for( k = 0 ; k <10000 ; k++ )
for( i = 0 ; i<MAX; i++ )
for( j = 0;j < MAX; j++ )
a[i][j] = 0;
a[j][i]使用时间:488s
for( k = 0 ; k < 10000 ; k++ )
for( i = 0 ; i<MAX; i++ )
for( j = 0;j < MAX; j++ )
a[j][i] = 0;
我将两种方法使用gcc生成了汇编代码。使用diff比较只发现了一下四句汇编代码的不同
1c1
< .file"array.c"
---
> .file"array1.c"
31c31
< movl4194352(%esp), %eax
---
> movl4194356(%esp), %eax
33c33
< addl 4194356(%esp), %eax
---
> addl 4194352(%esp), %eax
并且,这四句汇编在这行的时候不会产生性能差别,那性能差别出现在那里。可定不是循环、计算数据产生的差别。差别会出现在内存的访问位置上吗?不会的,内存是随机访问,访问任何一个位置内存的地址的时间应该是一样的。我们现在考虑一下是不是操作系统的缓存的功能。首先,本程序在加载到内存执行、以后除了cpu访问内存之外没有任何的资源消耗。所以说不是系统的问题。想了很久,想到cpu访问数据的时候是以块进行访问的,将取来的数据放到缓存中。因为a[i][i]是顺序访问,所以cpu缓存中的数据可以直接使用,无需再访问内存。而a[j][i]非顺序访问,下一个访问的位置,不在cpu的缓存中。
提议:在写代码的时候
1. 对数组、结构体进行顺序访问。提高缓存的命中率。
2. 减少不必要的判断,提高cpu的分支预测的命中率
但是,我们想一下现在软件,每一个都是那么的庞大,一个小项目都是几万行代码,
一个函数中你消耗一点,那么多函数是很大的性能消耗的。举一个不恰当的例子,
如果在百度首页中,每天几亿次的点击率,每一个函数里面都有一个无用++运算,这个i++可以小视吗?
下面的例子是我在虚拟机中运行,其中也会有机器性能不好的原因,但是我觉得这样才会将问题展示的更加的严重。
1.不要将函数作为循环的条件
SIZE= 1024
program 1: time:29ms
p = &a;
for( ; i < SIZE *sizeof(int); i++)
{
p = 1;
p++;
}
program 2: time:1ms
p = &a;
len = SIZE *sizeof(int);
for( ; i < len; i++)
{
p = 1;
p++;
}
原因:因为每次比较条件,函数都需要重新计算的,将会消耗时间。
2. 减少内存访问次数
program:1 time:1ms
i = 0;
for( ; i < 1024; i++)
tmp ++;
program:2 time:7ms
i = 0;
for( ; i < 1024; i++)
tmp = tmp + 1;
原因:内存与cpu的频率差别很大,尽量减少cpu对内存的访问,减少变量引用;
3.去除不必要的分支
program:1 time:3ms
i = 0;
for (tmp = 0; tmp < 100; tmp++)
{
max = min = a[0] ;
for( ; i < 100; i++)
{
if (max > a[i]) max = a[i];
if (min < a[i]) min = a[i];
}
}
program:2 time:2ms
i = 0;
for (tmp = 0; tmp < 100; tmp++)
{
max = min = a[0] ;
for( ; i < 100; i++)
{
if (max > a[i]) max = a[i];
else if (min < a[i]) min = a[i];
}
}
注意:这个平时写代码的时候注意方可,很多时候书上都是这样的写的,大家觉得没什么?不影响程序的运行结果。所以,没有注意。
4.间接寻址比基地址寻址慢,所以将结构体中常用的成员放前面,并且放在一起。(类、接口、文件同理)
program 1: time:11ms
i = 0;
for( ; i < 1000; i++)
{
t.t1 = 1;
t.t3 = 1;
}
program 1: time:7ms
i = 0;
for( ; i < 1000; i++)
{
t.t1 = 1;
t.t2 = 1;
}
原因:将数据放到同一内存页中,减少页面切换,增加缓存的命中率。
a[i][j]与a[j][i]性能差别的原因
一下内容仅是个人理解,有错误之处,望大家谅解和指正。a[i][j]使用时间:94s
for( k = 0 ; k <10000 ; k++ )
for( i = 0 ; i<MAX; i++ )
for( j = 0;j < MAX; j++ )
a[i][j] = 0;
a[j][i]使用时间:488s
for( k = 0 ; k < 10000 ; k++ )
for( i = 0 ; i<MAX; i++ )
for( j = 0;j < MAX; j++ )
a[j][i] = 0;
我将两种方法使用gcc生成了汇编代码。使用diff比较只发现了一下四句汇编代码的不同
1c1
< .file"array.c"
---
> .file"array1.c"
31c31
< movl4194352(%esp), %eax
---
> movl4194356(%esp), %eax
33c33
< addl 4194356(%esp), %eax
---
> addl 4194352(%esp), %eax
并且,这四句汇编在这行的时候不会产生性能差别,那性能差别出现在那里。可定不是循环、计算数据产生的差别。差别会出现在内存的访问位置上吗?不会的,内存是随机访问,访问任何一个位置内存的地址的时间应该是一样的。我们现在考虑一下是不是操作系统的缓存的功能。首先,本程序在加载到内存执行、以后除了cpu访问内存之外没有任何的资源消耗。所以说不是系统的问题。想了很久,想到cpu访问数据的时候是以块进行访问的,将取来的数据放到缓存中。因为a[i][i]是顺序访问,所以cpu缓存中的数据可以直接使用,无需再访问内存。而a[j][i]非顺序访问,下一个访问的位置,不在cpu的缓存中。
提议:在写代码的时候
1. 对数组、结构体进行顺序访问。提高缓存的命中率。
2. 减少不必要的判断,提高cpu的分支预测的命中率
相关文章推荐
- 在细节上提升你的程序的性能
- 在细节上提升你的程序的性能
- 在细节上提升你的程序的性能
- 在细节上提升你的程序的性能
- [转]微小改动提升程序性能
- 提升JAVA程序的性能
- C# 程序性能提升篇-2、类型(字段类型、class和struct)的错误定义所影响性能浅析
- [.net 面向对象程序设计进阶] (15) 缓存(Cache)(二) 利用缓存提升程序性能
- Function.apply()在提升程序性能方面的技巧
- 提升 .NET 程序性能的 一些 原则
- 13种提升基于MVVM模式的WP7程序性能的方法(转)
- java 性能优化:35 个小细节,让你提升 java 代码的运行效率
- 数据库性能优化三:程序操作优化提升性能
- 使用绑定变量提升 PL/SQL 程序性能
- 提升 ASP.NET 程序性能的一些原则(2)
- 合理利用运算符优先级,性能优化提升细节起
- 提升性能 Java程序优化的一些最佳实践
- java性能优化:35个小细节让你提升java代码的运行效率
- Java性能优化:30个小细节,提升Java代码运行效率
- C# 程序性能提升篇-1、装箱和拆箱,枚举的ToString浅析