基于PySpark的高级数据分析
张紫熙 译
出版时间:2024年11月
页数:243
时至今日产生的数据量达到了一个惊人的地步,而且还在不断增长。Apache Spark已经成为分析大数据的实际工具,并且也是数据科学工具箱的关键部分。本书针对Spark最新版本进行了更新,将Spark、统计方法和真实数据集结合在一起,教你如何运用PySpark、Spark Python APl和Spark编程中的其他最佳实践来解决分析问题。
数据科学家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wils介绍了Spark生态系统,然后深入研究将常用技术(包括分类、聚类、协同过滤和异常检测)应用于以下领域:基因组学、安全工作和金融。此更新版本还涵盖图像处理和Spark NLP库。
如果你对机器学习和统计学有基本的了解,并且能够使用Python进行编程,那么本书将帮助你开始进行大规模的数据分析。
● 熟悉Spark的编程模型和生态系统。
● 学习数据科学的一般方法。
● 检查分析大型公共数据集执行步骤的完整性。
● 发现哪些机器学习工具对特定问题有帮助。
● 探索可适应多种用途的代码。
书名:基于PySpark的高级数据分析
译者:张紫熙 译
国内出版社:中国电力出版社
出版时间:2024年11月
页数:243
书号:978-7-5198-9186-2
原版书书名:Advanced Analytics with PySpark
原版书出版商:O'Reilly Media
Akash Tandon
Akash Tandon是Looppanel 的联合创始人兼首席技术官。曾在Atlan担任高级数据工程师。
Sandy Ryza
Sandy Ryza是Cloudera公司数据科学家,Apache Spark项目的活跃代码贡献者。领导了Cloudera公司的Spark开发工作。他还是Hadoop项目管理委员会委员。
Uri Laserson
Uri Laserson是Cloudera公司数据科学家,专注于Hadoop生态系统中的Python部分。
Sean Owen
Sean Owen是Cloudera公司EMEA地区的数据科学总监,也是Apache Spark项目的代码提交者。他创立了基于Spark、Spark Streaming和Kafka的Hadoop实时大规模学习项目Oryx(之前称为Myrrix)。
Josh Wills
Josh Wills是Cloudera公司的高级数据科学总监,Apache Crunch项目的发起者和副总裁。
本书的封面动物是一只大西洋弹涂鱼(学名:Periophthalmus barbarus),这是一种两栖鱼类,常见于非洲西海岸的红树林沼泽和泥滩。
这只弹涂鱼呈橄榄褐色,通常有蓝色斑纹。强壮的胸鳍可以在陆地和水中轻松移动。它的眼睛像青蛙一样可以让它在大部分时间淹没在泥浆或水中进行狩猎。
大西洋弹涂鱼是埋伏型捕食者,它们利用头部扩张产生的吸力来捕食小型昆虫和甲壳类动物。该物种的雄性成员具有领土意识,并创造泥脊来划分大约 10 平方英尺的区域。
虽然大西洋弹涂鱼被 IUCN 列为无危物种,但 O’Reilly 封面上的许多动物都濒临灭绝;所有这些都对世界很重要。