Hadoop生态系统
陈新, 唐晓 译
出版时间:2016年10月
页数:109
如果你的组织即将开始进入大数据的世界,那么可能不仅需要决定Apache Hadoop这个平台是否适合使用,还需要决定Hadoop中哪些组件最适合完成你的任务。本书将帮助你更容易地完成这项工作。本书将Hadoop的生态系统分解为一个个简略的、容易理解的小段内容,以便读者可以快速理解Hadoop项目、子项目及其相关技术是如何一起工作的。
本书每一章都介绍了不同的主题(例如核心技术或数据传输),并且解释了为什么特定组件适用或不适用特定的需求。对于数据处理来说,使用Hadoop是一个全新的挑战,但如果有了这本便利的参考书,你将很容易领会使用Hadoop的精妙所在。
主要包括如下主题:
● 核心技术。Hadoop分布式文件系统(HDFS)、MapReduce、YARN和Spark。
● 数据库和数据管理。Cassandra、HBase、MongoDB和Hive。
● 序列化。Avro、JSON和Parquet。
● 管理和监视。Puppet、Chef、Zookeeper和Oozie。
● 分析辅助。Pig、Mahout和MLLib。
● 数据传输。Scoop、Flume、distcp和Storm。
● 安全、访问控制和审计。Sentry、Kerberos和Knox。
● 云计算和虚拟化。Serengeti、Docker和Whirr。
- 前言
- 第1章 关键技术
- 1.1 Hadoop分布式文件系统(HDFS)
- 1.2 MapReduce
- 1.3 YARN
- 1.4 Spark
- 第2章 数据库及数据管理
- 2.1 Cassandra
- 2.2 HBase
- 2.3 Accumulo
- 2.4 Memcached
- 2.5 Blur
- 2.6 Solr
- 2.7 MongoDB
- 2.8 Hive
- 2.9 Spark SQL (前身是 Shark)
- 2.10 Giraph
- 第3章 序列化
- 3.1 Avro
- 3.2 JSON
- 3.3 Protocol Buffers (protobuf)
- 3.4 Parquet
- 第4章 管理与监控
- 4.1 Ambari
- 4.2 HCatalog
- 4.3 Nagios
- 4.4 Puppet
- 4.5 Chef
- 4.6 ZooKeeper
- 4.7 Oozie
- 4.8 Ganglia
- 第5章 分析辅助
- 5.1 MapReduce接口
- 5.2 分析库
- 5.3 Pig
- 5.4 Hadoop Streaming
- 5.5 Mahout
- 5.6 MLLib
- 5.7 Hadoop图像处理接口(HIPI)
- 5.8 SpatialHadoop
- 第6章 数据传输
- 6.1 Sqoop
- 6.2 Flume
- 6.3 DistCp
- 6.4 Storm
- 第7章 安全、访问控制和审计
- 7.1 Sentry
- 7.2 Kerberos
- 7.3 Knox
- 第8章 云计算和虚拟化
- 8.1 Serengeti
- 8.2 Docker
- 8.3 Whirr
书名:Hadoop生态系统
译者:陈新, 唐晓 译
国内出版社:中国电力出版社
出版时间:2016年10月
页数:109
书号:978-7-5123-9598-5
原版书书名:Field Guide to Hadoop
原版书出版商:O'Reilly Media
Kevin Sitto
Kevin Sitto是Pivotal Software公司的领域解决方案工程师,他为用户提供咨询服务,帮助用户理解和描述他们的大数据需求。
他和妻子以及两个孩子住在Maryland,在没有撰写关于大数据书籍的时候,他经常享受制作自酿的啤酒的乐趣。
Marshall Presser
Marshall Presser是Pivotal Software公司的领域首席技术官,住在弗吉尼杰州麦克莱恩市。除了帮助用户使用Greenplum数据库解决复杂的分析问题之外,他领导了Hadoop Vitual 领域团队,工作关注于将Hadoop与关系型数据库整合。
在来到Pivotal公司(之前是Greenplum公司)之前,他在Oracle工作了12年,专门从事于高可用性、业务连续性、集群、并行数据库技术、灾难恢复和大规模数据库系统。Marshall之前还为许多硬件厂商实现集群和其他并行体系架构。他的背景包括并行计算和操作系统/编译器开发,同时还是健康医疗机构、金融服务机构、联邦政府和州政府的私人顾问。
Marshall获得了Pennsylvania大学的数学学士学位和金融与统计学硕士学位,同时还获取了伦敦Imperial大学的计算机理科硕士。
本书的封面的动物是O’Reilly动物,大多数是与本书涉及的技术相关联的,包括:贼鸥海鸟(skua seabird)、沼泽无尾刺豚鼠(lowland paca)、九头蛇波西亚帕西菲卡(hydra portia pacific)、 炮弹鱼(trigger fish)、非洲大象(African
elephant)、麋鹿(Pere David’s deer)、欧洲野猫(European wildcat)、披肩鸡(ruffed grouse)和黑猩猩(chimpanzee)。
O’Reilly封面的大多数动物都濒临灭绝,对于地球来说它们都是很重要的。如果希望了解更多如何帮助它们,可以访问animals.oreilly.com。