1.初识Hadoop 一.大数据初探 二.Hadoop

  • ”大数据“就是收集各种数据,经过分析后再来做有意义的是,其中包括对数据进行采集、管理、存储、搜索、共享、分析和可视化。

1.大数据技术概念

  • 发现大规模数据中的规律,通过对数据的分析实现对运营层决策的支持

2.大数据技术框架

  • 6个部分:数据收集、数据存储、资源管理、计算框架、数据分析和数据展示

1.初识Hadoop
一.大数据初探
二.Hadoop

 3.大数据的特点

  • ”4v“:volume、variety、velocity和value

    • 海量性(volume)

    • 多样性(variety)

    • 高速性(velocity)

    • 价值性(value)

4.大数据计算模型

  • 4类大数据计算模型

    • 批处理:离线计算,如 MapReduce

    • 流计算:流数据的实时计算,如 Storm,IBM InfoSphere Streams

    • 图计算:大规模图结构数据的处理,常用于社交网络,如 Pregel

    • 查询分析计算:大规模数据的存储管理和查询分析,如Hive

5.大数据与云计算、物联网的关系

(1)云计算概念:

  • 云计算是一种按使用量付费的模式,这种模式提供可用可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务)。

(2)云计算特点:

  • 超大规模、通用性、高扩展性、虚拟化、高可靠性、按需服务、极其廉价、具有潜在危险性

(3)云计算的模式:公有云、私有云、混合云

(4)云计算服务分类:Saas、Paas和Iaas

1.初识Hadoop
一.大数据初探
二.Hadoop

1.初识Hadoop
一.大数据初探
二.Hadoop

 (5)大数据、云计算和物联网三者关系

  • 物联网:提供数据

  • 大数据:提供分析

  • 云计算:提供技术

1.初识Hadoop
一.大数据初探
二.Hadoop

二.Hadoop

1.Hadoop简介

  • Hadoop是Apache开源软件基金会开发的运行在大规模普通服务器上,用于大数据存储、据算、分析的分布式存储系统和分布式运行框架

2.Hadoop两大核心

  • HDFS:分布式存储系统,用于保存海量数据,具有高可靠性、高扩展性和高吞吐率的特点。

  • MapReduce:分布式计算框架,用于海量数据计算,具有易于编程、高容错和高扩展的特点。

 3.Hadoop生态系统

1.初识Hadoop
一.大数据初探
二.Hadoop