堆处置海量数据-求前k个最小的数-时间复杂度(n * log k)
通过阅读July的书籍,发现里面求前k个最小数有很多方法。但在面对处理海量数据处理的时候,不能 把全部数据都放在电脑内存中。这时用堆来处理,并把数据放在外存中,通过读取文件的方式来读取。感觉该方法十分巧妙,时间复杂度(n*log k)。代码如下:
#include<iostream> #include<assert.h> using namespace std; void MaxHeap(int heap[],int i,int len); void BuildHeap(int heap[],int len) { if(heap == NULL) return; int index = len/2; for(int i = index;i >= 1; i--) MaxHeap(heap,i,len); } void MaxHeap(int heap[],int i,int len) { int largeIndex = -1; int left = i * 2; int right = i *2 + 1; if(left<=len && heap[left]>heap[i]) largeIndex = left; else largeIndex = i; if(right<=len && heap[right]>heap[largeIndex]) largeIndex = right; if(largeIndex != i) { swap(heap[i],heap[largeIndex]); MaxHeap(heap,largeIndex,len); } } int main() { int k; cout<<"求最小的k个数,请输入k的值:"; cin>>k; int *heap = new int [k+1]; FILE *fp = fopen("data.txt","r"); assert(fp); for(int i = 1;i<=k;i++) { fscanf(fp,"%d",&heap[i]); } BuildHeap(heap,k); int newData; while(fscanf(fp,"%d",&newData)!=EOF) { if(newData<heap[1]) { heap[1]=newData; MaxHeap(heap,1,k); } } for(int j=1;j<=k;j++) cout<<heap[j]<<" "; cout<<endl; fclose(fp); return 0; }
关于assert函数用法
以下转自http://www.cnblogs.com/ggzss/archive/2011/08/18/2145017.html
assert宏的原型定义在<assert.h>中,其作用是如果它的条件返回错误,则终止程序执行,原型定义:
#include <assert.h> void assert( int expression );
assert的作用是现计算表达式 expression ,如果其值为假(即为0),那么它先向stderr打印一条出错信息,然后通过调用 abort 来终止程序运行。请看下面的程序清单badptr.c:
#include <stdio.h> #include <assert.h> #include <stdlib.h> int main( void ) { FILE *fp; fp = fopen( "test.txt", "w" );//以可写的方式打开一个文件,如果不存在就创建一个同名文件 assert( fp ); //所以这里不会出错 fclose( fp ); fp = fopen( "noexitfile.txt", "r" );//以只读的方式打开一个文件,如果不存在就打开文件失败 assert( fp ); //所以这里出错 fclose( fp ); //程序永远都执行不到这里来 return 0; }
[root@localhost error_process]# gcc badptr.c
[root@localhost error_process]# ./a.out
a.out: badptr.c:14: main: Assertion `fp' failed.
已放弃使用assert()的缺点是,频繁的调用会极大的影响程序的性能,增加额外的开销。在调试结束后,可以通过在包含#include <assert.h>的语句之前插入 #define NDEBUG 来禁用assert调用,示例代码如下:
#include <stdio.h> #define NDEBUG #include <assert.h>
用法总结与注意事项:
1)在函数开始处检验传入参数的合法性如:
int resetBufferSize(int nNewSize) { //功能:改变缓冲区大小, //参数:nNewSize 缓冲区新长度 //返回值:缓冲区当前长度 //说明:保持原信息内容不变 nNewSize<=0表示清除缓冲区 assert(nNewSize >= 0); assert(nNewSize <= MAX_BUFFER_SIZE); ... }
2)每个assert只检验一个条件,因为同时检验多个条件时,如果断言失败,无法直观的判断是哪个条件失败,如:
不好:
assert(nOffset>=0 && nOffset+nSize<=m_nInfomationSize);
好:
assert(nOffset >= 0); assert(nOffset+nSize <= m_nInfomationSize);
3)不能使用改变环境的语句,因为assert只在DEBUG个生效,如果这么做,会使用程序在真正运行时遇到问题,如:
错误:
assert(i++ < 100);
这是因为如果出错,比如在执行之前i=100,那么这条语句就不会执行,那么i++这条命令就没有执行。
正确:
assert(i < 100); i++;
4)assert和后面的语句应空一行,以形成逻辑和视觉上的一致感。
5)有的地方,assert不能代替条件过滤。
还可以使用STL -- nth_element来逐步求前k个最小的值,简单的例子说明如下:
#include<iostream> #include<algorithm> //必须的 using namespace std; int main() { int a[]={3,2,6,1,8}; for(int i=2;i>=0;i--) { nth_element(a,a+i,a+4);//求前3个最小的数 cout<<a[i]<<endl; } return 0; }