大数据学习文章 ZooKeeper: Hadoop集群作业调度算法 初步掌握Yarn的架构及原理 从Container内存监控限制到CPU使用率限制方案 mapreduce编程(一)-二次排序 MapReduce 图解流程超详细解答(1)-【map阶段】 MapReduce 图解流程超详细解答(2)-【map阶段】 Hive SQL的编译过程 Hive之分区(Partitions)和桶(Buckets) Hive性能优化 hbase 学习(十六)系统架构图 HBase -ROOT-和.META.表结构(region定位原理) Hbase 学习(九) 华为二级索引(原理) HBase高性能复杂条件查询引擎 【HBase】zookeeper在HBase中的应用 HBase什么时候作minor major compact HBase的compact分析 hbase分页应用场景及分页思路与代码实现 hbase权威指南阅读随手笔记二之过滤器 *HBase原理、设计与优化实践 HBase性能优化方法总结  H

ZooKeeper浅析:http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3113923.html

ZooKeeper原理及使用:http://www.wuzesheng.com/?p=2609#more-2609

Zookeeper 快速理解

HDFS:

MapReduce程序的工作过程: http://www.aboutyun.com/thread-15494-1-2.html

HDFS小文件处理解决方案总结:http://www.aboutyun.com/thread-14227-1-1.html

Hadoop 学习总结之一:HDFS简介:http://www.cnblogs.com/forfuture1978/archive/2010/03/14/1685351.html

Hadoop集群作业调度算法

MapReduce

初步掌握Yarn的架构及原理


hadoop杂记-为什么会有Map-reduce v2 (Yarn):http://www.cnblogs.com/LeftNotEasy/archive/2012/02/18/why-yarn.html

YARN : Architecture of Next Generation Apache Hadoop MapReduceFramework:http://blog.csdn.net/colorant/article/details/9146201

从Container内存监控限制到CPU使用率限制方案

MapReduce程序的工作过程: http://www.aboutyun.com/thread-15494-1-2.html

hadoop学习(六)WordCount示例深度学习MapReduce过程(1)

Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解:http://blog.csdn.net/yczws1/article/details/19178265

hadoop学习WordCount+Block+Split+Shuffle+Map+Reduce技术详解:http://blog.csdn.net/yczws1/article/details/21899007

MapReduce调度与执行原理系列文章

一、MapReduce调度与执行原理之作业提交

二、MapReduce调度与执行原理之作业初始化

三、MapReduce调度与执行原理之任务调度

四、MapReduce调度与执行原理之任务调度(续)

JobTracker作业启动过程分析:http://blog.csdn.net/androidlushangderen/article/details/41356521

Hadoop集群作业调度算法

浅析 Hadoop 中的数据倾斜:http://my.oschina.net/leejun2005/blog/100922

Hadoop源码解析之: TextInputFormat如何处理跨split的行:http://blog.csdn.net/bluishglc/article/details/9380087

mapreduce排序和二次排序以及全排序

MapReduce框架中全排序的算法思想--学习笔记

mapreduce编程(一)-二次排序

MapReduce 图解流程超详细解答(1)-【map阶段】

MapReduce 图解流程超详细解答(2)-【map阶段】

hive:

hive基本操作:http://www.aboutyun.com/thread-6867-1-1.html

hive组件和执行过程:http://blog.csdn.net/lifuxiangcaohui/article/details/40262021

大数据时代的技术hive介绍:http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html

Hive体系结构:http://blog.csdn.net/lifuxiangcaohui/article/details/40615843

 深入浅出数据仓库中SQL性能优化之Hive篇

【hive】hive的查询注意事项以及优化总结

HIVE Group by、join、distinct等实现原理 

Hive SQL的编译过程

Hive之分区(Partitions)和桶(Buckets)

Hive性能优化

HBase:
Hadoop核心架构Hbase:http://blog.csdn.net/yczws1/article/details/19178265

HBase学习:http://blog.bcmeng.com/post/hbase-note.html

HBase系统入门--整体介绍 

Hbase写数据,存数据,读数据的详细过程

Hbase rowkey设计一 

HBase的rowkey设计(含实例)

LSM树由来、设计思想以及应用到HBase的索引 

HBase在搜狐内容推荐引擎系统中的应用  

Hbase建模 

Hbase和Oracle的对比

关于HFile的存储结构梳理以及快速定位rowkey

HBase二级索引方案总结

hbase 学习(十六)系统架构图

HBase -ROOT-和.META.表结构(region定位原理)

Hbase 学习(九) 华为二级索引(原理)

HBase高性能复杂条件查询引擎

【HBase】zookeeper在HBase中的应用

HBase什么时候作minor major compact

HBase的compact分析

二级索引方案:http://www.aboutyun.com/thread-14201-1-1.html 

hbase分页应用场景及分页思路与代码实现

hbase权威指南阅读随手笔记二之过滤器

*HBase原理、设计与优化实践

HBase性能优化方法总结 

HBase 管理,性能调优

HBase Rowkey的散列与预分区设计

Hbase总结(六)hbase37个笔试题

Solr:

Lucene学习总结之一:全文检索的基本原理

Solr学习和总结(线下1)

solr学习2

Solr使用

基于Solr的HBase多条件查询测试

Elasticsearch与Solr 选型

ElasticSearch:

ElasticSearch学习1

ES学习2

ElasticSearch使用代码 

修改ES分片规则 

Redis:

NoSQL and Redis

redis集群配置

15天玩转redis(mark,redis学习系列) 

几款主流 NoSql 数据库的对比(转)

 redis源码系列

Kafka:

快速理解Kafka分布式消息队列框架 

Kafka可靠性的思考

Kafka深度解析

Apche Kafka 的生与死 – failover 机制详解

Kafka消息的可靠性测试--针对直播业务的方案选择

Kafka文件存储机制那些事

高可用保证消息绝对顺序消费的BROKER设计方案

Kafka 之 入门 

Kafka 之 中级

flume-kafka-storm日志处理经验

【采集层】Kafka 与 Flume 如何选择

使用Java API创建(create),查看(describe),列举(list),删除(delete)Kafka主题(Topic)

Flume:

Flume1.5.0入门:安装、部署、及flume的案例

Flume(NG)架构设计要点及配置实践: http://shiyanjun.cn/archives/915.html

基于Flume的美团日志收集系统(一)架构和设计

Storm:

Storm快速理解

从Storm和Spark 学习流式实时分布式计算的设计

Twitter Storm如何保证消息不丢失

Storm:最火的流式处理框架

使用Storm实现实时大数据分析

Storm ack和fail机制再论

Apache Storm内部原理分析

 

你了解实时计算吗?

 

Spark:

Apache Spark源码走读之1 -- Spark论文阅读笔记

Spark 快速理解

论SparkStreaming的数据可靠性和一致性 

Spark和Hadoop作业之间的区别

科普Spark,Spark核心是什么,如何使用Spark(1)

从Storm和Spark 学习流式实时分布式计算的设计 

 Spark Streaming:大规模流式数据处理

Docker:

快速理解Docker - 容器级虚拟化解决方案  

Scala

Tachyon

Impala

Oozie

oozie 入门

ganglia

.......

分布式与集群的区别

大数据(一) - hadoop生态系统及版本演化 
大数据(二) - HDFS 
大数据(三) - YARN 
大数据(四) - MapReduce 
大数据(五) - HBase 
大数据(六) - ZooKeeper 
大数据(七) - Flume 
大数据(八) - Sqoop 
大数据(九) - Hive 
大数据(十) - Pig 
大数据(十一) - Mahout 
大数据(十二) - Oozie 
大数据(十三) - Azkaban 
大数据(十四) - Storm 
大数据(十五) - JStorm