小弟我所了解的大数据
凡是过去,皆为序曲
吾生也有涯,而知也无涯。以有涯随无涯,殆已!已而为知者,殆而已矣!为善无近名,为恶无近刑,缘督以为经,可以保身,可以全生,可以养亲,可以尽年。
——《庄子·内篇·养生主第三》
大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。
大数据的幕后推手
在宽带化、移动互联网、物联网、社交网络、云计算的催生下,一个大数据时代,不经意间顺理成章地翩然而至。我们生活在一个被几何级爆炸的数据包围的时代,大数据将深刻影响人们的生活、工作和生活方式,反过来说,你留在数字世界里的任何踪迹都变成了数据的一部分。每个人创造的数据就是“大数据”的一部分,每个人都是大数据的生产者和消费者。
摩尔定律:铸造数据滋生的利器
摩尔定律可表述为:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的计算机性能,将每隔18个月翻两倍以上。这一定律揭示了信息技术进步的速度。
2005年,一块1TB的硬盘价格大约为1000美元,现在一块不到100美元的U盘就有那么大的容量。这些数据存储的成本正在呈指数下降。根据IDC于2012年12月发布的《2020年的数字宇宙》报告,数据存储成本已从2012年的2美元/兆字节下降到2020年的0.2美元/兆字节。
吉尔德定律:大带宽支撑大数据
吉尔德定律可表述为:在未来25年,主干网的带宽每6个月增长一倍,其增长速度是摩尔定律预测的CPU增长速度的3倍,且将来上网会免费。定律中所描述的主干网增长速度比CPU的增长速度要快得多。微软公司的实验证明,在300km的范围内通过无线方式传输1GB信息仅需1s,这是我们计算机调制解调器传输能力的1万倍!这一事实表明,带宽增加在技术上不成问题,其关键是用户需求(需求日渐强烈,带宽也会相应增加,上网费用自然也会下降)。
麦特卡夫定律:大数据价值是用户创造的
麦特卡夫定律可表述为:网络价值以用户数量平方的速度增长,即网络价值等于网络节点数的平方,即(V为网络总价值,n为用户数或节点数)。该定律表明:如果一个网络中有n个人,那么网络对于每个人的价值与网络中其他人的数量成正比,这样网络对于所有人的总价值与n(n-1)=-n成正比。如果一个网络对网络网络中每个人价值是1元,那么规模为10倍的网络的总价值等于100元;规模为100倍的网络的总价值就等于10 000元。网络规模增长10倍,其价值就增长100倍。
大数据腾“云”驾“物”
如果说物联网为数据提供了来源,云计算为数据提供了存储和访问的渠道,那么大数据将为数据应用和决策支持提供有效帮助,因而也成为物联网、云计算内在的灵魂和必然的发展趋势。
大数据之所以走红,主要归结于物联网和云计算的迅猛发展和普及,使得全球数据量大大提升。物联网和云计算等热点技术的崛起在很大程度上是大数据产生的原因。物联网、移动互联网再加上传统互联网,每天都在产生海量数据,而大数据又通过云计算的形式,对这些数据进行筛选、处理、分析,提取出有用的信息,这就是大数据分析。
大数据是高速跑车,云计算是高速公路
大数据着眼于“数据”,关注实际业务,提供数据采集分析挖掘,看重的是信息沉淀,即数据存储能力。云计算着眼于“计算”,关注IT解决方案,提供IT基础架构,看重的是计算能力,即数据处理能力。云计算改变了IT,而大数据则改变了业务。大数据必须有云作为基础架构,才能得以顺畅运营。没有云计算这样的高速公路,大数据这样的超级跑车就跑不起来。当市场对大数据这个超级跑车需求很高时,云计算这个高速公路就会往纵横各个方向发展,形成良性互动。没有大数据的信息积淀,云计算的计算能力再强大,也只能是杀鸡焉用牛刀,难以找到用武之地;没有云计算的处理能力,则大数据的信息积淀再丰富,也终究只是镜花水月。
大数据根植于云计算,云计算是一颗挂满了大数据的苹果树。大数据和云计算是天作之合,云计算平台海量低成本的数据存储与处理资源为大数据分享提供了可能。大数据关键技术包括数据采集(如Chukwa、Flume、Scribe)、数据处理(如Sqoop、MapReduce)、数据存储(如GFS、HDFS、HayStack)、数据管理(如BigTable、HBase、Cassandra)、数据挖掘(如Mahout、Hive)、数据展现(如PowerView、Karmasphere)等。不难看出,云计算关键技术中的海量数据存储技术、海量数据管理技术、MapReduce模型编程,都是大数据技术的基础。利用云计算的强大计算能力,可以更加迅速地处理大数据的丰富信息,更方便的为人们提供服务。通过大数据的业务需求,为云计算的落地找到了更多更好的实际应用。
版权声明:Copyright © Lee