基于PySpark的高级数据分析
Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
张紫熙 译
出版时间:2024年11月
页数:243
时至今日产生的数据量达到了一个惊人的地步,而且还在不断增长。Apache Spark已经成为分析大数据的实际工具,并且也是数据科学工具箱的关键部分。本书针对Spark最新版本进行了更新,将Spark、统计方法和真实数据集结合在一起,教你如何运用PySpark、Spark Python APl和Spark编程中的其他最佳实践来解决分析问题。
数据科学家Akash Tandon、Sandy Ryza、Uri Laserson、Sean Owen和Josh Wils介绍了Spark生态系统,然后深入研究将常用技术(包括分类、聚类、协同过滤和异常检测)应用于以下领域:基因组学、安全工作和金融。此更新版本还涵盖图像处理和Spark NLP库。
如果你对机器学习和统计学有基本的了解,并且能够使用Python进行编程,那么本书将帮助你开始进行大规模的数据分析。
● 熟悉Spark的编程模型和生态系统。
● 学习数据科学的一般方法。
● 检查分析大型公共数据集执行步骤的完整性。
● 发现哪些机器学习工具对特定问题有帮助。
● 探索可适应多种用途的代码。
  1. 前言
  2. 第1章 大数据分析
  3. 1.1 使用大数据
  4. 1.2 Apache Spark和PySpark
  5. 1.2.1 组件
  6. 1.2.2 PySpark
  7. 1.2.3 生态系统
  8. 1.3 Spark 3.0
  9. 1.4 PySpark处理数据科学问题
  10. 1.5 本章小结
  11. 第2章 PySpark数据分析简介
  12. 2.1 Spark架构
  13. 2.2 安装PySpark
  14. 2.3 设置我们的数据
  15. 2.4 使用DataFrame API分析数据
  16. 2.5 DataFrames的快速汇总统计
  17. 2.6 DataFrame的透视和重塑
  18. 2.7 关联DataFrame并选择特征
  19. 2.8 评分和模型评估
  20. 2.9 本章小结
  21. 第3章 音乐推荐和音频编码器的数据集
  22. 3.1 设置数据
  23. 3.2 我们对推荐系统的要求
  24. 3.3 数据准备
  25. 3.4 构建第一个模型
  26. 3.5 算法筛查推荐
  27. 3.6 推荐质量评估
  28. 3.7 计算AUC
  29. 3.8 选择超参数
  30. 3.9 给出推荐
  31. 3.10 本章小结
  32. 第4章 使用决策树和决策森林进行预测
  33. 4.1 决策树和决策森林
  34. 4.2 准备数据
  35. 4.3 第一颗决策树
  36. 4.4 决策树超参数
  37. 4.5 调试决策树
  38. 4.6 重温分类特征
  39. 4.7 随机森林
  40. 4.8 进行预测
  41. 4.9 本章小结
  42. 第5章 异常检测与K-means聚类算法
  43. 5.1 K-means聚类
  44. 5.2 识别异常网络流量
  45. 5.3 初次尝试聚类
  46. 5.4 选择K值
  47. 5.5 利用SparkR实现可视化
  48. 5.6 特征归一化
  49. 5.7 分类变量
  50. 5.8 使用熵(Entropy)标签
  51. 5.9 聚类实战
  52. 5.10 本章小结
  53. 第6章 通过LDA、Spark NLP了解维基百科
  54. 6.1 隐含狄利克雷分布
  55. 6.2 获取数据
  56. 6.3 Spark NLP
  57. 6.4 解析数据
  58. 6.5 使用Spark NLP准备数据
  59. 6.6 TF-IDF
  60. 6.7 计算TF-IDF
  61. 6.8 创建LDA模型
  62. 6.9 本章小结
  63. 第7章 基于出租车行程数据的时空序列数据分析
  64. 7.1 数据准备
  65. 7.1.1 将日期格式字符串转换为时间戳
  66. 7.1.2 处理无效记录
  67. 7.2 地理空间分析
  68. 7.2.1 介绍GeoJSON
  69. 7.2.2 GeoPandas
  70. 7.3 PySpark 会话化
  71. 7.4 本章小结
  72. 第8章 金融风险评估
  73. 8.1 金融术语
  74. 8.2 VaR的计算方法
  75. 8.2.1 方差与协方差
  76. 8.2.2 历史模拟法
  77. 8.2.3 蒙特卡罗模拟
  78. 8.3 我们的模型
  79. 8.4 获取数据
  80. 8.5 准备数据
  81. 8.6 决定因子权重
  82. 8.7 抽样
  83. 8.8 试验运行
  84. 8.9 可视化收益分布
  85. 8.10 本章小结
  86. 第9章 分析基因组学数据和BDG项目
  87. 9.1 从建模中解耦存储
  88. 9.2 设置ADAM
  89. 9.3 介绍如何使用ADAM处理基因组数据
  90. 9.3.1 使用ADAM CLI进行文件格式转换
  91. 9.3.2 使用PySpark和ADAM采集基因组学数据
  92. 9.4 预测转录因子结合位点
  93. 9.5 本章小结
  94. 第10章 基于深入学习和PySpark LSH的图像相似度检测
  95. 10.1 PyTorch
  96. 10.2 准备数据
  97. 10.3 图像矢量表示的深度学习模型
  98. 10.3.1 图像嵌入
  99. 10.3.2 将图像嵌入导入 PySpark
  100. 10.4 使用PySpark LSH进行图像相似搜索
  101. 10.5 本章小结
  102. 第11章 使用MLflow管理机器学习生命周期
  103. 11.1 机器学习生命周期
  104. 11.2 MLflow
  105. 11.3 实验跟踪
  106. 11.4 管理和服务ML模型
  107. 11.5 创建并使用MLflow项目
  108. 11.6 本章小结
书名:基于PySpark的高级数据分析
译者:张紫熙 译
国内出版社:中国电力出版社
出版时间:2024年11月
页数:243
书号:978-7-5198-9186-2
原版书书名:Advanced Analytics with PySpark
原版书出版商:O'Reilly Media
Akash Tandon
 
Akash Tandon是Looppanel 的联合创始人兼首席技术官。曾在Atlan担任高级数据工程师。
 
 
Sandy Ryza
 
Sandy Ryza是Cloudera公司数据科学家,Apache Spark项目的活跃代码贡献者。领导了Cloudera公司的Spark开发工作。他还是Hadoop项目管理委员会委员。
 
 
Uri Laserson
 
Uri Laserson是Cloudera公司数据科学家,专注于Hadoop生态系统中的Python部分。
 
 
Sean Owen
 
Sean Owen是Cloudera公司EMEA地区的数据科学总监,也是Apache Spark项目的代码提交者。他创立了基于Spark、Spark Streaming和Kafka的Hadoop实时大规模学习项目Oryx(之前称为Myrrix)。
 
 
Josh Wills
 
Josh Wills是Cloudera公司的高级数据科学总监,Apache Crunch项目的发起者和副总裁。
 
 
本书的封面动物是一只大西洋弹涂鱼(学名:Periophthalmus barbarus),这是一种两栖鱼类,常见于非洲西海岸的红树林沼泽和泥滩。
这只弹涂鱼呈橄榄褐色,通常有蓝色斑纹。强壮的胸鳍可以在陆地和水中轻松移动。它的眼睛像青蛙一样可以让它在大部分时间淹没在泥浆或水中进行狩猎。
大西洋弹涂鱼是埋伏型捕食者,它们利用头部扩张产生的吸力来捕食小型昆虫和甲壳类动物。该物种的雄性成员具有领土意识,并创造泥脊来划分大约 10 平方英尺的区域。
虽然大西洋弹涂鱼被 IUCN 列为无危物种,但 O’Reilly 封面上的许多动物都濒临灭绝;所有这些都对世界很重要。
购买选项
定价:78.00元
书号:978-7-5198-9186-2
出版社:中国电力出版社