Hive编程指南
曹坤 译
出版时间:2013年11月
页数:318
要把关系型数据库应用迁移到Hadoop上,你该何去何从?本书介绍了Apache Hive,它是基于Hadoop的数据仓库架构。通过本书,读者可以很快学会如何使用Hive的SQL方言——HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大型数据集。
本书以实际案例为主线,详细介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce的各项技术进行概要介绍,同时演示Hive在Hadoop生态系统中是如何工作的。在本书中,读者还可以看到众多的实际使用场景,包括企业如何使用Hive解决了涉及PB级数据的问题。
· 使用Hive创建、修改和删除数据库、表、视图、函数和索引。
· 从文件到外部数据库,自定义数据存储格式和存储选项。
· 将数据载入表中以及从表中抽取数据,并使用查询、分组、过滤、连接和其他常规查询方法。
· 获得创建用户自定义函数(UDF)的最佳方法。
· 了解应该使用的Hive模式以及应该避免的反模式。
· 将Hive和其他数据处理程序进行整合。
· 对于NoSQL数据库和其他数据存储使用存储控制器。
· 学习在亚马逊弹性MapReduce上执行Hive的正反两方面信息。
书名:Hive编程指南
译者:曹坤 译
国内出版社:人民邮电出版社
出版时间:2013年11月
页数:318
书号:978-7-115-33383-4
原版书书名:Programming Hive
原版书出版商:O'Reilly Media
Edward Capriolo
Media6degrees公司系统管理员,他是Apache软件基金会成员,还是Hadoop-Hive项目成员。
Dean Wampler
Think Big Analytics公司总顾问,对大数据问题以及Hadoop和机器学习有专门的研究。
Jason Rutherglen
Think Big Analytics公司软件架构师,对大数据、Hadoop、搜索和安全有专门的研究。