纯技术探讨，关于海量数据和池技术,该如何处理

纯技术探讨，关于海量数据和池技术
上周六去一家公司面试被问到的两个比较难点的题目
第一个问题：
“海量”的定义怎么划分？如果说超过TB以上的数据，那应该是采用分布式架构，如果说GB～TB自然是用大型的数据库系统，如果说是MB～GB这个就比较自由，既可以用数据库，也可以文件，也可以直接用内存来搞。数据结构当然用hashtable和BTree相结合，查找会比较迅速。
第二个问题：
首先想到的是线程池和内存池，直接说不是很了解，只回答了便于统一管理和防止内层碎片这两点。
----------------------------------------
各位有什么好的看法

------解决方案--------------------
我最近看了一篇关于海量数据的文章，和大家分享下
淘宝数据魔方技术架构解析
------解决方案--------------------
周磊的博客中有关于海量数据处理的 http://blog.****.net/v_july_v/article/category/1106578
------解决方案--------------------
首先海量数据，这个我觉得是从行业来的，君不见我们的卫星影像数据照样是文件，
对于海量数据，个人认为首先是依据它的用途才能确定的，这个题目个人认为太宽泛。
------解决方案--------------------
我感觉是个动态定义，要依据以前对该类数据的处理方式来确定大小。

比如以前都是放在内存处理的，碰到一个动辄若干G的那就算是海量，老方式不行了。

如果以前都是放在单服务器数据库处理的，现在碰到需要几TB以上的，处理不了了。海量

如果以前系统一天更新量也就几个GB的，现在碰到几百上千GB了，老方式也不行了。海量

纯技术探讨，关于海量数据和池技术,该如何处理

相关推荐