《数据算法》——O'Reilly 北京

数据算法

苏金国, 杨健康译

出版时间：2016年12月

页数：696

《数据算法：Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案，以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。
主要内容包括：
· 完成超大量交易的购物篮分析。
· 数据挖掘算法（K-均值、KNN和朴素贝叶斯）。
· 使用超大基因组数据完成DNA和RNA测序。
· 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。
· 推荐算法和成对文档相似性。
· 线性回归、Cox回归和皮尔逊（Pearson）相关分析。
· 等位基因频率和DNA挖掘。
· 社交网络分析（推荐系统、三角形计数和情感分析）。

目录
产品信息
关于作者

序
前言
第1章二次排序：简介
二次排序问题解决方案
MapReduce/Hadoop的二次排序解决方案
Spark的二次排序解决方案
第2章二次排序：详细示例
二次排序技术
二次排序的完整示例
运行示例——老版本Hadoop API
运行示例——新版本Hadoop API
第3章 Top 10列表
Top N设计模式的形式化描述
MapReduce/Hadoop实现：唯一键
Spark实现：唯一键
Spark实现：非唯一键
使用takeOrdered()的Spark Top 10解决方案
MapReduce/Hadoop Top 10解决方案：非唯一键
第4章左外连接
左外连接示例
MapReduce左外连接实现
Spark左外连接实现
使用leftOuterJoin()的Spark实现
第5章反转排序
反转排序模式示例
反转排序模式的MapReduce/Hadoop实现
运行示例
第6章移动平均
示例1：时间序列数据（股票价格）
示例2：时间序列数据（URL访问数）
形式定义
POJO移动平均解决方案
MapReduce/Hadoop移动平均解决方案
第7章购物篮分析
MBA目标
MBA的应用领域
使用MapReduce的购物篮分析
Spark解决方案
运行Spark实现的YARN脚本
第8章共同好友
输入
POJO共同好友解决方案
MapReduce算法
解决方案1: 使用文本的Hadoop实现
解决方案2: 使用ArrayListOfLongsWritable的Hadoop实现
Spark解决方案
第9章使用MapReduce实现推荐引擎
购买过该商品的顾客还购买了哪些商品
经常一起购买的商品
推荐连接
第10章基于内容的电影推荐
输入
MapReduce阶段1
MapReduce阶段2和阶段3
Spark电影推荐实现
第11章使用马尔可夫模型的智能邮件营销
马尔可夫链基本原理
使用MapReduce的马尔可夫模型
Spark解决方案
第12章 K-均值聚类
什么是K-均值聚类
聚类的应用领域
K-均值聚类方法非形式化描述：分区方法
K-均值距离函数
K-均值聚类形式化描述
K-均值聚类的MapReduce解决方案
K-均值算法Spark实现
第13章 k-近邻
kNN分类
距离函数
kNN示例
kNN算法非形式化描述
kNN算法形式化描述
kNN的类Java非MapReduce解决方案
Spark的kNN算法实现
第14章朴素贝叶斯
训练和学习示例
条件概率
深入分析朴素贝叶斯分类器
朴素贝叶斯分类器：符号数据的MapReduce解决方案
朴素贝叶斯分类器Spark实现
使用Spark和Mahout
第15章情感分析
情感示例
情感分数：正面或负面
一个简单的MapReduce情感分析示例
真实世界的情感分析
第16章查找、统计和列出大图中的所有三角形
基本的图概念
三角形计数的重要性
MapReduce/Hadoop解决方案
Spark解决方案
第17章 K-mer计数
K-mer计数的输入数据
K-mer计数应用
K-mer计数MapReduce/Hadoop解决方案
K-mer计数Spark解决方案
第18章 DNA测序
DNA测序的输入数据
输入数据验证
DNA序列比对
DNA测试的MapReduce算法
第19章 Cox回归
Cox模型剖析
使用R的Cox回归
Cox回归应用
Cox回归POJO解决方案
MapReduce输入
使用MapReduce的Cox回归
第20章 Cochran-Armitage趋势检验
Cochran-Armitage算法
Cochran-Armitage应用
MapReduce解决方案
第21章等位基因频率
基本定义
形式化问题描述
等位基因频率分析的MapReduce解决方案
MapReduce解决方案，阶段1
MapReduce解决方案，阶段2
MapReduce解决方案，阶段3
染色体X 和Y的特殊处理
第22章 T检验
对bioset完成T检验
MapReduce问题描述
输入
期望输出
MapReduce解决方案
Spark实现
第23章皮尔逊相关系数
皮尔逊相关系数公式
皮尔逊相关系数示例
皮尔逊相关系数数据集
皮尔逊相关系数POJO解决方案
皮尔逊相关系数MapReduce解决方案
皮尔逊相关系数的Spark解决方案
运行Spark程序的YARN脚本
使用Spark计算斯皮尔曼相关系数
第24章 DNA碱基计数
FASTA格式
FASTQ格式
MapReduce解决方案：FASTA格式
运行示例
MapReduce解决方案: FASTQ格式
Spark 解决方案: FASTA格式
Spark解决方案: FASTQ格式
第25章 RNA测序
数据大小和格式
MapReduce工作流
RNA测序分析概述
RNA测序MapReduce算法
第26章基因聚合
输入
输出
MapReduce解决方案（按单个值过滤和按平均值过滤）
基因聚合的Spark解决方案
Spark解决方案：按单个值过滤
Spark解决方案：按平均值过滤
第27章线性回归
基本定义
简单示例
问题描述
输入数据
期望输出
使用SimpleRegression的MapReduce解决方案
Hadoop实现类
使用R线性模型的MapReduce解决方案
第28章 MapReduce和幺半群
概述
幺半群的定义
幺半群和非幺半群示例
MapReduce示例：非幺半群
MapReduce示例：幺半群
使用幺半群的Spark示例
使用幺半群的结论
函子和幺半群
第29章小文件问题
解决方案1：在客户端合并小文件
解决方案2：用CombineFileInputFormat解决小文件问题
其他解决方案
第30章 MapReduce的大容量缓存
实现方案
缓存问题形式化描述
一个精巧、可伸缩的解决方案
实现LRUMap缓存
使用LRUMap的MapReduce解决方案
第31章 Bloom过滤器
Bloom过滤器性质
一个简单的Bloom过滤器示例

书名：数据算法

作者：Mahmoud Parsian 著

译者：苏金国, 杨健康译

国内出版社：中国电力出版社

出版时间：2016年12月

页数：696

书号：978-7-5123-9594-7

原版书书名：Data Algorithms

原版书出版商：O'Reilly Media

Mahmoud Parsian

Mahmoud Parsian，计算机科学博士，是一位热衷于实践的软件专家，作为开发人员、设计人员、架构师和作者，他有30多年的软件开发经验。目前领导着Illumina的大数据团队，在过去15年间，他主要从事Java (服务器端)、数据库、MapReduce和分布式计算的有关工作。Mahmoud还著有《JDBC Recipes》和《JDBC Metadata， MySQL，and Oracle Recipes》等书（均由Apress出版）。

查看Mahmoud Parsian更多信息

购买选项

定价：128.00元

书号：978-7-5123-9594-7

出版社：中国电力出版社

联系出版社邮购