您的位置：首页 > 职场人生
程序员面试金典： 9.10 扩展性与存储限制 10.3产生1个不在含40亿个整数文件中的整数---优化解法

2017-01-10 23:06 239 查看
#include <iostream>
#include <stdio.h>
#include <bitset>
#include <vector>

using namespace std;

/*
问题：给定一个输入文件，包含40亿个非负整数，请设计一种算法，产生一个不在该文件中的整数。假定你有10MB内存来完成该项任务。
分析：10MB的内存只够存放10MB / 4B = 2.5 * 2^(20)， 约为 250万个整数，大约2^(21)个元素
40亿个整数 40亿 / 250万 = 1600 共需操作1600次
需要明确的是即使每次把10MB内存用完，得到的也只是那些在这250万个整数中出现的整数，以及出现的次数。
采用分批处理的目的是每次分批处理得到若干个候选值，最后一次将个分批处理的候选值全放在一起，最终得出结果。
但这里用分批，似乎得不到需要的候选值

这里用一个简单例子作为说明：假设100万个数中寻找丢失的数。可以分为1000组，每组1000个数
读取整数n，将其分配到对应的组g=n/1000中，
则发现:0  ~ 999  的数在组1中，每当整数分配到数组1中，就累加数组1次数，如果最终发现次数不是1000，说明数组1丢失整数，再用位图对1000个数统计缺少哪个数
100~ 1999 的数在组2中
...
999000~999999的数在组1000中
问题的关键变成如何分组
10MB对应约2^(21)个整数，则最多拥有2^(21)个分组，设分组个数arraySize，每个数组包含元素为rangeSize
arraySize=2^(32) / rangeSize <= 2^(21)
位图向量大小 = 一个数组中数组个数
所以: rangeSize >= 2^(11)，由于最多一次放入2^(23)字节到内存(10MB)，即需要2^(26)比特，即为位图向量所占内存最多情况
2^(11) <= rangeSize <= 2^(26)
可以取rangeSize = 2^(20)，即元素个数为2^20,分组个数= 2^32 / 2^20 = 2^12
但该方法有限制条件：元素不能重复，否则统计失效

输入:
10(n个整数)
1 2 3 6 4 5 9 10 8 11
输出:
7

关键:
1 两次读取，第一次读取文件，进行分组，统计各组内次数，寻找次数不等于数组长度的组，记组号b
二           ，统计分组后落入组b的元素，生成该组的位图，遍历位图，确定丢失的元素
2
读取整数n，将其分配到对应的组g=n/1000中，
则发现:0  ~ 999  的数在组1中，每当整数分配到数组1中，就累加数组1次数，如果最终发现次数不是1000，说明数组1丢失整数，再用位图对1000个数统计缺少哪个数
100~ 1999 的数在组2中
...
999000~999999的数在组1000中
问题的关键变成如何分组
10MB对应约2^(21)个整数，则最多拥有2^(21)个分组，设分组个数arraySize，每个数组包含元素为rangeSize
arraySize=2^(32) / rangeSize <= 2^(21)
位图向量大小 = 一个数组中数组个数
所以: rangeSize >= 2^(11)，由于最多一次放入2^(23)字节到内存(10MB)，即需要2^(26)比特，即为位图向量所占内存最多情况
2^(11) <= rangeSize <= 2^(26)
可以取rangeSize = 2^(20)，即元素个数为2^20,分组个数= 2^32 / 2^20 = 2^12
但该方法有限制条件：元素不能重复，否则统计失效
*/

const unsigned long gRangeSize =1048576; // 2^20
//这里必须用long，否则溢出,C++中long和int都是4字节，所以long最大2^31大概为20亿，必须用unsigned long
bitset<gRangeSize> gBitset; //设置biteset长度为40亿

void process()
{
int n;
unsigned long value;
unsigned long result = 0;
//防止溢出用unsigned long
unsigned long totalNum = int( pow(2, 32) );
unsigned long blockNum = totalNum / gRangeSize;
vector<int> vecValue;//存储输入数据
unsigned i;
while(cin >> n)
{
int* blockArr = new int[blockNum];
memset(blockArr , 0 , sizeof(blockArr) * blockNum);
gBitset.reset();//设置所有位为0
for(i = 0 ; i < n ; i++)
{
cin >> value;
vecValue.push_back(value);
//判断当前元素所在组，并累加次数，但这个只适用于非重复的情况，如果有整数重复了，比如两个1，都会累加，除非能判断当前整数是否已经出现过
blockArr[ value / gRangeSize ]++;
//将元素存储在对应组的位图中
}
//寻找丢失元素的数组
unsigned long lostBlockNumber = 0;
//正整数，必须从1开始
for(i = 0 ; i < blockNum ; i++)
{
if( blockArr[i] < gRangeSize )
{
lostBlockNumber = i;
break;
}
}

//第二次读取数据，将凡是属于丢失元素的数组中元素找出，生成位图，寻找丢失元素
unsigned long blockNum;
unsigned long bit;
for(i = 0 ; i < n ; i++)
{
blockNum = vecValue.at(i)/ gRangeSize;
//生成位图
if(blockNum == lostBlockNumber)
{
bit = vecValue.at(i) % gRangeSize;
gBitset.at(bit) = 1;
}
}

//在位图中寻找丢失的元素
for( i = 1 ; i < gRangeSize ; i++)
{
if( gBitset.at(i) == 0 )
{
//还原丢失的数
result = i + lostBlockNumber * gRangeSize;
break;
}
}
cout << result << endl;
delete[] blockArr;
}
}

int main(int argc, char* argv[])
{
process();
getchar();
return 0;
}
内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理
标签：
相关文章推荐
新的分享
章节导航