Pig编程指南
曹坤 译
出版时间:2013年01月
页数:191
“……Pig这样的工具为数据使用者提供了一种较高层次的抽象,使用户可以借助Hadoop强大的处理能力和灵活性,而并不需要用底层Java代码来编写大量的数据处理程序。”
——摘自本书前言
Apache Pig是基于Hadoop的并行数据流处理开源引擎。使用Pig,用户无需开发一个全功能的应用程序就可以批处理数据,这使得在新数据集上进行试验变得更加容易。
本书是学习Apache Pig的理想读物及参考书。全书不仅为初学者讲授Pig的基础知识,同时还向有经验的用户更加全面地介绍Pig的重要特性,如Pig Latin脚本语言、Grunt Shell交互命令以及用于对Pig进行扩展的用户自定义函数(UDF)等。如果读者需要分析TB级的数据量,本书也提供了能更高效地使用Pig来完成需求的方法。
通过学习本书,你将能够:
· 深入了解Pig数据模型,包括基本数据类型和复杂数据类型。
· 通过Pig Latin脚本对数据进行排序、分组、连接、投影以及过滤。
· 使用Grunt处理Hadoop分布式文件系统(HDFS)。
· 使用Pig的宏命令和模块化特性创建复杂的数据处理流。
· 在Python中嵌入Pig Latin脚本实现迭代处理过程以及其他高级任务。
· 创建用户自定义的加载和存储函数来处理新的数据格式和存储机制。
· 掌握更高效地在Hadoop集群中运行脚本的方法和技巧。
Alan Gates,Hortonworks公司创始人之一,是将Pig从雅虎的研究项目转化为一个成功的Apache开源项目的工程师团队中最早的成员。他负责监督Pig的实现、编程接口和总体设计。
书名:Pig编程指南
译者:曹坤 译
国内出版社:人民邮电出版社
出版时间:2013年01月
页数:191
书号:978-7-115-30111-6
原版书书名:Programming Pig
原版书出版商:O'Reilly Media
Alan Gates
hortonworks公司创始人之一,是将pig从雅虎的研究项目转化为一个成功的apache开源项目的工程师团队中最早的成员。他负责监督pig的实现、编程接口和总体设计。