Spark大数据算法
苏金国 译
出版时间:2024年05月
页数:485
“如果你希望采用一种可伸缩的方式实现现有算法,或者正在使用Spark开发新的自定义算法,这本书将是一个绝好的资源。”
——Matei Zaharia
斯坦福大学计算机科学副教授;Databricks首席技术专家;Apache Spark创始人
Apache Spark不仅速度快,易于使用,还提供了丰富的分析能力和多语言支持,掌握这个集群计算框架的实用知识已经成为数据工程师和数据科学家的必备技能。利用这本实用指南,想要了解Spark的人能从中学到实用的PySpark算法和示例。
每一章中,本书作者会向你展示如何用一组Spark转换和算法解决一个数据问题。你会了解如何应对涉及ETL、设计模式、机器学习算法、数据分区和基因组分析的问题。每个技巧都提供了利用PySpark驱动器的PySpark算法和shell脚本。
利用这本书,你将学习以下内容:
● 了解如何选择Spark转换实现优化的解决方案。
● 探索强大的转换和归约,包括reduceByKey()、combineByKey()和mapPartitions()。
● 理解数据分区以实现优化查询。
● 使用PySpark设计模式构建和应用模型。
● 对图数据应用motif查找算法。
● 使用GraphFrames API分析图数据。
● 对临床医学和基因组数据应用PySpark算法。
● 学习如何在ML算法中使用和应用特征工程。
● 了解并使用实用的数据设计模式。
书名:Spark大数据算法
译者:苏金国 译
国内出版社:中国电力出版社
出版时间:2024年05月
页数:485
书号:978-7-5198-8772-8
原版书书名:Data Algorithms with Spark
原版书出版商:O'Reilly Media
Mahmoud Parsian
Mahmoud Parsian,计算机科学博士,是一位热衷于实践的软件专家,作为开发人员、设计人员、架构师和作者,他有30多年的软件开发经验。目前领导着Illumina的大数据团队,在过去15年间,他主要从事Java (服务器端)、数据库、MapReduce和分布式计算的有关工作。Mahmoud还著有《JDBC Recipes》和《JDBC Metadata, MySQL,and Oracle Recipes》等书(均由Apress出版)。
本书的封面动物是一只棘尾雷雀(学名:Aphrastura spinicauda)。这种小型鸟常见于智利和阿根廷的温带森林以及亚热带干草地和灌木丛。棘尾雷雀有黑色的头部和喙,颈部和肚子为白色,还有延伸到脖子后面的橙色的“眉毛”。它们的上覆羽为黑色,顶端白色,翅飞羽却是红橙色,带浅棕色条纹。棘尾雷雀全身以及独特的尾巴混合了黑色、棕色和铁锈色羽毛,并有狭窄突出的尾羽,这也是它得名“棘尾”的原因。
这些鸟只有13~14厘米长,重约10~13克,不到半盎司!它们非常活跃,充满好奇,而且喜欢鸣叫,在树叶、苔藓、地衣、树枝和树干中觅食,偶尔也会在地面上寻找食物。它们在南半球春季和夏季(10月到下一年的1月)产卵,在树干、缝隙甚至屋顶下筑巢。雌鸟会在由藤蔓、树根、草和羽毛搭建的巢中产下3~4枚卵,雄鸟和雌鸟共同孵化两周左右。与大多数鸟类不同,棘尾雷雀不迁徙,但它们是一夫一妻制,通常成对出现,或者常常组成不超过15只鸟的小群体。棘尾雷雀的数量很稳定,被国际自然保护联盟认为是最不受关注的物种。O’Reilly封面上的很多动物都濒临灭绝;所有这些动物对我们的世界都很重要。