本书是一本循序渐进的指导手册,重点介绍了Hadoop的高级概念和特性。内容涵盖了Hadoop 2.X版的改进,MapReduce、Pig和Hive等的优化及其高级特性,Hadoop 2.0的专属特性(如YARN和HDFS联合),以及如何使用Hadoop2.0版本扩展Hadoop的能力。
如果你想拓展自己的Hadoop知识和技能,想应对具有挑战性的数据处理问题,想让Hadoop作业、Pig脚本和Hive查询运行得更快,或者想了解升级Hadoop的好处,那么本书便是你的不二选择。
通过阅读本书,你将能够:
理解从Hadoop 1.0到Hadoop 2.0的变化
定制和优化Hadoop 2.0中的MapReduce作业
探究Hadoop I/O和不同的数据格式
深入学习YARN和Storm,并通过YARN集成Hadoop和Storm
基于亚马逊ElasticMapReduce部署Hadoop
探究HDFS替代品,学习HDFS联合
掌握Hadoop安全方面的主要内容
使用Mahout和RHadoop进行Hadoop数据分析