您的位置：首页 > 其它

基数排序的性能优化

2016-06-24 13:17 309 查看

以下转自：http://blog.csdn.net/yutianzuijin/article/details/22876017

最近需要对大小在0到100万内的很多数组进行排序，每一个数组的长度都不固定，短则几十，长则几千。为了最快完成排序，需要将数组大小和数据范围考虑进去。由于快速排序是常规排序中速度最快的，首选肯定是它。但是数组中数据的范围固定，可以考虑基数排序。为了使排序耗时尽可能短，需要测试这两种排序算法。

快排是面试过程中常考的手写代码，需要背得滚瓜烂熟，代码如下：

[cpp]
view plain
copy
print?

void swap(int* a,int *b)
{
    int temp=*a;
    *a=*b;
    *b=temp;
}

void q_sort(int* a,int left,int right)
{
    if(left>=right) return;

    int i=left,j=right+1;
    int pivot=a[left];

    while(true)
    {
        do
        {
            i++;
        }while(i<=right&&a[i]<pivot);

        do
        {
            j--;
        }while(j>=left&&a[j]>pivot);

        if(i>=j) break;

        swap(&a[i],&a[j]);
    }

    a[left]=a[j];
    a[j]=pivot;

    q_sort(a,left,j-1);
    q_sort(a,j+1,right);
}

void quick_sort(int* a,int n)
{
    q_sort(a,0,n-1);
}

下面着重介绍基数排序。关于基数排序的原理和两种不同实现可以参考：基数排序，该博客详细介绍了LSD（Least
significant digital）或MSD（Most significant digital）两种基数排序的原理和代码实现。由于LSD更符合大家的思维方式，所以对比时也采用LSD。最初版本的LSD代码如下：

[cpp]
view plain
copy
print?

const static int radix=100;
int get_part(int n,int i)
{
    int p=(int)pow(radix,i);
    return (int)(n/p)%radix;
}
void radix_sort(int* a,int n)
{
    int* bucket=(int*)malloc(sizeof(int)*n);
    int* count=(int*)malloc(sizeof(int)*radix);

    for(int i=0;i<3;++i)
    {
        memset(count,0,sizeof(int)*radix);

        for(int j=0;j<n;++j)
        {
            count[get_part(a[j],i)]++;
        }

        for(int j=1;j<radix;++j)
        {
            count[j]+=count[j-1];
        }

        for(int j=n-1;j>=0;--j)
        {
            int k=get_part(a[j],i);
            bucket[count[k]-1]=a[j];
            count[k]--;
        }

        memcpy(a,bucket,sizeof(int)*n);
    }

    free(bucket);
    free(count);
}

下面详细分析一下上面的基数排序代码。首先定义常量radix用来表示选择的基数，上面的代码一开始选择的基数为100。很多代码在使用基数排序的时候总是默认基数为10，但是这样往往会提高复杂度，后面会详细分析10为基的坏处。之后定义了一个get_part函数，用来获得数据的不同部分。最后是具体的基数排序函数。通过函数体可以很清楚的看出基数排序的复杂度，上面代码给出的复杂度为O(3*(3n+r))。其中外面的3表示范围在100万以内的数通过基数100分解最多只需要分解三次；里面的3n+r表示每次循环的复杂度。For循环内部有三个小的for循环，复杂度分别为n、r和n。此外还有一个memset调用，复杂度也是n，因而每次循环总的复杂度是3n+r。

由上面的分析，我们可以获得基数排序在数据任意大小时的复杂度为：

其中，r为基数，n为数组长度，Max为数组最大值。由此我们可以看出，影响基数排序的因素有三个：数组长度，基数大小和数组最大值。优化基数排序的方法也就是从这三方面入手。

在介绍优化之前，我们先对比原始的基数排序和快速排序的性能，测试结果如表一：

测试结果很让人吃惊，基数排序完全比不上快速排序，性能差距而且不小，这很奇怪。如果看代码，基数排序的复杂度确实很低，但是性能却比较差劲。不过好的一点是，基数排序的性能确实满足线性增长规律。

优化一：避免内存分配

原始基数排序中桶变量count使用malloc分配空间，我们首先将该动态内存分配改为栈上固定内存分配，基数排序的前后性能对比如表二。可以看出，通过改为固定内存分配，基数排序的性能有小幅提升，但是这还不足以与快速排序相匹配。我们还需要考虑别的优化技巧。

优化二：修改基数

通过基数排序的复杂度可以看出，影响复杂度的很大一个参数是基数的选择。很多人在使用基数排序时都会默认基数为10，但是这样会显著增大算法复杂度的常量，因而在数组长度较大时，选用较大的基数可能会使性能更好。我们将算法的基数改为1000，性能对比图如表三。可以看出，通过修改基数，基数排序的性能有很大提升，当数组长度大于10000时，基数排序的性能已经超过快速排序。

但是这还不足以说明基数排序的优势。按复杂度推算，快速排序的复杂度为O(n*logn)，基数排序复杂度在基为1000时复杂度为O(6n+2r)，因而当元素个数在500左右时，两者的性能就应该达到一样，这说明算法还有优化余地。

优化三：避免复杂的数学运算

基数排序中有一个频繁的操作是获取整数的不同部分，该操作通过一个get_part函数获得，函数代码如下：

[cpp]
view plain
copy
print?

int get_part(int n,int i)
{
    int p=(int)pow(radix,i);
    return (int)(n*p)%radix;
}

上述函数有一个复杂的pow系统调用，这可能会影响速度。但其实该操作就是计算基数的次方。在基数固定的前提下，我们可以将次方计算提前计算出来，每次通过查表来获得基数的次方。为此，我们定义一个常量数组p用来保存基数的次方：

[cpp]
view plain
copy
print?

static int p[]={1,radix,radix*radix,radix*radix*radix,radix*radix*radix*radix};

当基数为1000时，上述数组可以应对最大为10^12的整数。然后get_part函数就变为：

[cpp]
view plain
copy
print?

int get_part(int n,int i)
{
    return (n/p[i])%radix;
}

在此测试两种排序，性能对比如表四。这次可以看出，当元素为1000左右时，基数排序性能开始占优；当数组很长时，基数排序有很明显的性能提升，已经远远超过了快速排序。

优化四：除法变乘法

在get_part函数中有一个除法取整的操作，一般情况下除法要比乘法更耗时，一个优化技巧是将除法变成乘法。在此我们可以定义一个常量数组，用来保存基数次方的倒数，这样就可以将除法转变成乘法：

[cpp]
view plain
copy
print?

static double rp[]={1,1.0/p[1],1.0/p[2],1.0/p[3],1.0/p[4]};

然后get_part函数就变为：

[cpp]
view plain
copy
print?

int get_part(int n,int i)
{
    return (int)(n*rp[i])%radix;
}

再次测试基数排序前后的性能有表五。可以看出，避免除法操作又可以使性能获得较大提升。当数组长度在400左右时，基数排序性能开始占优。

优化五：内联函数

可以看出get_part函数在基数排序中多次调用，同时其构造又很简单，可以考虑将其作为内联函数。修改一个函数为内联函数的方式很简单，只需要在声明函数时加inline关键词即可。将get_part函数修改为内联函数后，性能又有些许提升，如表六。当数组长度在300左右时，基数排序性能开始占优。

优化六：采用2的幂作为基数

在选择基数时我们总会习惯性的以10的幂作为基数，这与我们平时多用10进制运算相符合。但是，计算机是以二进制存储数据的，所以当采用10的幂作为基数时就会出现很多问题，最明显的就是上面出现的乘法除法问题。虽然我们对get_part函数做了很多优化，但是还有一个取余操作尚未优化。昨天，经俊哥指点，我们完全可以采用2的幂作为基数，这样就可以完全避免复杂的乘除法运算。

我们将基数改为1024，此时我们需要修改常量数组p为：

[cpp]
view plain
copy
print?

static int p[]={0,10,20,30};

然后get_part函数变为：

[cpp]
view plain
copy
print?

inline int get_part(int n,int i)
{
    return n>>p[i]&(radix-1);
}

可以看出，修改基数为1024之后，除法操作就变为了右移操作，取模操作就变成了与操作。直观上，性能会有很大提升；测试结果也是如此，如表七。当数组长度在200左右时，基数排序性能开始占优。

下面把调优之后的完整基数排序代码列出：

[cpp]
view plain
copy
print?

const static int radix=1024;
static int p[]={0,10,20,30};

inline int get_part(int n,int i)
{
    return n>>p[i]&(radix-1);
}

void radix_sort(int* a,int n)
{
    int* bucket=(int*)malloc(sizeof(int)*n);
    int count[radix];

    for(int i=0;i<2;++i)
    {
        memset(count,0,sizeof(int)*radix);

        for(int j=0;j<n;++j)
        {
            count[get_part(a[j],i)]++;
        }

        for(int j=1;j<radix;++j)
        {
            count[j]+=count[j-1];
        }

        for(int j=n-1;j>=0;--j)
        {
            int k=get_part(a[j],i);
            bucket[count[k]-1]=a[j];
            count[k]--;
        }

        memcpy(a,bucket,sizeof(int)*n);
    }

    free(bucket);
}

再次运行快速排序和上述代码，获得一个性能对比图：

总结

通过上面的分析我们可以看出，基数排序确实符合它线性复杂度的优势。如果我们知晓整数数组元素的范围，基数排序确实是一个很好的选择。但是要获得好的性能并不是特别容易，需要很多优化技巧。最好的优化方法就是选择2的幂作为基数。在具体应用时，我们要根据实际的数据范围去合理的选择基数，在确定基数之后再去考虑需要循环的次数。在上面的对比中，数据范围在100w以内，因而循环只有两次，所以快速排序和基数排序的性能差异接近5倍；如果在10亿以内，则需要三次循环，性能差异可能就会降为3倍左右。其实，10亿以内的数几乎快覆盖了int型整数的范围；如果基数选择为2048，则三次循环就完全覆盖了整个int型整数范围。所以，如果要排序的数据范围很大，但是数据量又不足以使用计数排序时，可以考虑采用基数为2048的基数排序。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航