您的位置:首页 > 其它

大文件内数据排序问题:采用文件映射内存技术

2010-07-08 16:49 591 查看
对文件内数据排序时,如果文件较小,可以将文件内数据全部读入内存时,通过内排序方法如冒泡,快速排序等方法,可以很方便的实现。

但如果文件大小超过了内存大小,仅仅使用内排序就不能达到目标了。

解决这个问题,有一个方法是大名鼎鼎的外排序:将大文件分成若干个小文件,对小文件进行内排序,然后将各个有序小文件组合成大的有序文件。外排序方法需要反复的读写文件,时间复杂度较高。

下面的代码使用的是win32API提供的文件映射内存方法,能减少文件读写次数,提高效率。

/**
说明:程序首先生成由随机整数组成的文件,然后利用文件映射内存访问数据,将数据进行升序排序后输出的另一个文件。
*/
#include <iostream>
#include <ctime>
#include <vector>
#include <algorithm>
#include <Windows.h>
#include <string>
using namespace std;

#define ORIGIN_FILE_NAME  "data"  //数据文件名
#define NUMBER_COUNT 1024         //随机生成的整数数量

int GenerateOriginDataFile();//生成数据文件:由n个随机整数组成
int SortFile();//文件排序

int main()
{
GenerateOriginDataFile();
DWORD dwStart = GetTickCount();
SortFile();
DWORD dwEnd = GetTickCount();
cout << "running time spend:" << dwEnd - dwStart << endl;
return 0;
}
int SortFile()
{
// 创建文件对象
HANDLE hFile = CreateFile(ORIGIN_FILE_NAME, GENERIC_READ | GENERIC_WRITE,
0, NULL, OPEN_EXISTING, FILE_ATTRIBUTE_NORMAL, NULL);
if (hFile == INVALID_HANDLE_VALUE)
{
printf("创建文件对象失败,错误代码:%drn", GetLastError());
return -1;
}
// 创建文件映射对象
HANDLE hFileMap = CreateFileMapping(hFile, NULL, PAGE_READWRITE, 0, 0, NULL);
if (hFileMap == NULL)
{
printf("创建文件映射对象失败,错误代码:%drn", GetLastError());
return -1;
}
// 得到系统分配粒度
SYSTEM_INFO SysInfo;
GetSystemInfo(&SysInfo);
DWORD dwGran = SysInfo.dwAllocationGranularity;
// 得到文件尺寸
DWORD dwFileSizeHigh;
__int64 qwFileSize = GetFileSize(hFile, &dwFileSizeHigh);
qwFileSize |= (((__int64)dwFileSizeHigh) << 32);
// 关闭文件对象
CloseHandle(hFile);
// 偏移地址
__int64 qwFileOffset = 0;
// 块大小
DWORD dwBlockBytes = 1000 * dwGran;
if (qwFileSize < 1000 * dwGran)
dwBlockBytes = (DWORD)qwFileSize;
while (qwFileSize > 0)
{
// 映射视图
LPBYTE lpbMapAddress = (LPBYTE)MapViewOfFile(hFileMap,FILE_MAP_ALL_ACCESS,
(DWORD)(qwFileOffset >> 32), (DWORD)(qwFileOffset & 0xFFFFFFFF),
dwBlockBytes);
if (lpbMapAddress == NULL)
{
printf("映射文件映射失败,错误代码:%drn", GetLastError());
return -1;
}
const int NUMBER_MAX_LENGTH = 6;
// 对映射的视图进行访问
char temp[NUMBER_MAX_LENGTH + 1] = {0};
int number = 0;
//直接操作内存lpbMapAddress,进行冒泡排序
for(DWORD i = 0; i < dwBlockBytes; i+=NUMBER_MAX_LENGTH)
{
for (int j=0;j<NUMBER_MAX_LENGTH;j++)
{
temp[j] = *(lpbMapAddress + i + j);
}
number = atoi(temp);
for (int j=i+NUMBER_MAX_LENGTH;j<dwBlockBytes;j+=NUMBER_MAX_LENGTH)
{
for (int k=0;k<NUMBER_MAX_LENGTH;k++)
{
temp[k] = *(lpbMapAddress + j + k);
}
if (number > atoi(temp))
{
for (int k=0;k<NUMBER_MAX_LENGTH;k++)
{
*(lpbMapAddress + j + k) = *(lpbMapAddress + i + k);
*(lpbMapAddress + i + k) = temp[k];
}
number = atoi(temp);
}
}
}
// 撤消文件映像
UnmapViewOfFile(lpbMapAddress);
// 修正参数
qwFileOffset += dwBlockBytes;
qwFileSize -= dwBlockBytes;
}
// 关闭文件映射对象句柄
CloseHandle(hFileMap);
return 0;
}
int GenerateOriginDataFile()
{
FILE* pFile = fopen(ORIGIN_FILE_NAME,"w");
srand((unsigned)time(0));
for (int i=0;i<NUMBER_COUNT;i++)
{
long ran_num = rand();
fprintf(pFile,"%-5d ",ran_num);
}
fclose(pFile);
return 0;
}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: