您的位置:首页 > 职场人生

程序员面试金典: 9.10 扩展性与存储限制 10.3产生1个不在含40亿个整数文件中的整数---优化解法

2017-01-10 23:06 239 查看
#include <iostream>
#include <stdio.h>
#include <bitset>
#include <vector>

using namespace std;

/*
问题:给定一个输入文件,包含40亿个非负整数,请设计一种算法,产生一个不在该文件中的整数。假定你有10MB内存来完成该项任务。
分析:10MB的内存只够存放10MB / 4B = 2.5 * 2^(20), 约为 250万个整数,大约2^(21)个元素
40亿个整数 40亿 / 250万 = 1600 共需操作1600次
需要明确的是即使每次把10MB内存用完,得到的也只是那些在这250万个整数中出现的整数,以及出现的次数。
采用分批处理的目的是每次分批处理得到若干个候选值,最后一次将个分批处理的候选值全放在一起,最终得出结果。
但这里用分批,似乎得不到需要的候选值

这里用一个简单例子作为说明:假设100万个数中寻找丢失的数。可以分为1000组,每组1000个数
读取整数n,将其分配到对应的组g=n/1000中,
则发现:0  ~ 999  的数在组1中,每当整数分配到数组1中,就累加数组1次数,如果最终发现次数不是1000,说明数组1丢失整数,再用位图对1000个数统计缺少哪个数
100~ 1999 的数在组2中
...
999000~999999的数在组1000中
问题的关键变成如何分组
10MB对应约2^(21)个整数,则最多拥有2^(21)个分组,设分组个数arraySize,每个数组包含元素为rangeSize
arraySize=2^(32) / rangeSize <= 2^(21)
位图向量大小 = 一个数组中数组个数
所以: rangeSize >= 2^(11),由于最多一次放入2^(23)字节到内存(10MB),即需要2^(26)比特,即为位图向量所占内存最多情况
2^(11) <= rangeSize <= 2^(26)
可以取rangeSize = 2^(20),即元素个数为2^20,分组个数= 2^32 / 2^20 = 2^12
但该方法有限制条件:元素不能重复,否则统计失效

输入:
10(n个整数)
1 2 3 6 4 5 9 10 8 11
输出:
7

关键:
1 两次读取,第一次读取文件,进行分组,统计各组内次数,寻找次数不等于数组长度的组,记组号b
二           ,统计分组后落入组b的元素,生成该组的位图,遍历位图,确定丢失的元素
2
读取整数n,将其分配到对应的组g=n/1000中,
则发现:0  ~ 999  的数在组1中,每当整数分配到数组1中,就累加数组1次数,如果最终发现次数不是1000,说明数组1丢失整数,再用位图对1000个数统计缺少哪个数
100~ 1999 的数在组2中
...
999000~999999的数在组1000中
问题的关键变成如何分组
10MB对应约2^(21)个整数,则最多拥有2^(21)个分组,设分组个数arraySize,每个数组包含元素为rangeSize
arraySize=2^(32) / rangeSize <= 2^(21)
位图向量大小 = 一个数组中数组个数
所以: rangeSize >= 2^(11),由于最多一次放入2^(23)字节到内存(10MB),即需要2^(26)比特,即为位图向量所占内存最多情况
2^(11) <= rangeSize <= 2^(26)
可以取rangeSize = 2^(20),即元素个数为2^20,分组个数= 2^32 / 2^20 = 2^12
但该方法有限制条件:元素不能重复,否则统计失效
*/

const unsigned long gRangeSize =1048576; // 2^20
//这里必须用long,否则溢出,C++中long和int都是4字节,所以long最大2^31大概为20亿,必须用unsigned long
bitset<gRangeSize> gBitset; //设置biteset长度为40亿

void process()
{
int n;
unsigned long value;
unsigned long result = 0;
//防止溢出用unsigned long
unsigned long totalNum = int( pow(2, 32) );
unsigned long blockNum = totalNum / gRangeSize;
vector<int> vecValue;//存储输入数据
unsigned i;
while(cin >> n)
{
int* blockArr = new int[blockNum];
memset(blockArr , 0 , sizeof(blockArr) * blockNum);
gBitset.reset();//设置所有位为0
for(i = 0 ; i < n ; i++)
{
cin >> value;
vecValue.push_back(value);
//判断当前元素所在组,并累加次数,但这个只适用于非重复的情况,如果有整数重复了,比如两个1,都会累加,除非能判断当前整数是否已经出现过
blockArr[ value / gRangeSize ]++;
//将元素存储在对应组的位图中
}
//寻找丢失元素的数组
unsigned long lostBlockNumber = 0;
//正整数,必须从1开始
for(i = 0 ; i < blockNum ; i++)
{
if( blockArr[i] < gRangeSize )
{
lostBlockNumber = i;
break;
}
}

//第二次读取数据,将凡是属于丢失元素的数组中元素找出,生成位图,寻找丢失元素
unsigned long blockNum;
unsigned long bit;
for(i = 0 ; i < n ; i++)
{
blockNum = vecValue.at(i)/ gRangeSize;
//生成位图
if(blockNum == lostBlockNumber)
{
bit = vecValue.at(i) % gRangeSize;
gBitset.at(bit) = 1;
}
}

//在位图中寻找丢失的元素
for( i = 1 ; i < gRangeSize ; i++)
{
if( gBitset.at(i) == 0 )
{
//还原丢失的数
result = i + lostBlockNumber * gRangeSize;
break;
}
}
cout << result << endl;
delete[] blockArr;
}
}

int main(int argc, char* argv[])
{
process();
getchar();
return 0;
}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐