纯技术探讨,关于海量数据和池技术,该如何处理

纯技术探讨,关于海量数据和池技术
上周六去一家公司面试被问到的两个比较难点的题目
第一个问题:
“海量”的定义怎么划分?如果说超过TB以上的数据,那应该是采用分布式架构,如果说GB~TB自然是用大型的数据库系统,如果说是MB~GB这个就比较*,既可以用数据库,也可以文件,也可以直接用内存来搞。数据结构当然用hashtable和BTree相结合,查找会比较迅速。
第二个问题:
首先想到的是线程池和内存池,直接说不是很了解,只回答了便于统一管理和防止内层碎片这两点。
----------------------------------------
各位有什么好的看法

------解决方案--------------------
我最近看了一篇关于海量数据的文章,和大家分享下
淘宝数据魔方技术架构解析
------解决方案--------------------
周磊的博客中有关于海量数据处理的 http://blog.csdn.net/v_july_v/article/category/1106578
------解决方案--------------------
首先海量数据,这个我觉得是从行业来的,君不见我们的卫星影像数据照样是文件,
对于海量数据,个人认为首先是依据它的用途才能确定的,这个题目个人认为太宽泛。
------解决方案--------------------
我感觉是个动态定义,要依据以前对该类数据的处理方式来确定大小。

比如以前都是放在内存处理的,碰到一个动辄若干G的那就算是海量,老方式不行了。

如果以前都是放在单服务器数据库处理的,现在碰到需要几TB以上的,处理不了了。海量

如果以前系统一天更新量也就几个GB的,现在碰到几百上千GB了,老方式也不行了。海量