机器学习:实用案例解析
陈开江, 刘逸哲, 孟晓楠 译
出版时间:2013年04月
页数:288
“这本书为机器学习技术提供了一些非常棒的案例研究。它并不是一本关于机器学习的工具书或者理论书籍,而是对学习过程的指南,因而适合任何具有编程背景和定量思维的人。”
——Max Shron,OkCupid
机器学习是计算机科学和人工智能中非常重要的一个研究领域,近年来,机器学习不但在计算机科学的众多领域中大显身手,而且成为一些交叉学科的重要支撑技术。本书比较全面系统地介绍了机器学习的方法和技术,不仅详细阐述了许多经典的学习方法,而且讨论了一些有生命力的新理论、新方法。
全书案例既有分类问题,也有回归问题;既包含监督学习,也涵盖无监督学习。本书讨论的案例涉及分类、回归、聚类、降维、最优化问题等。这些案例包括:垃圾邮件识别、智能收件箱、预测网页访问量、文本回归、密码破译、构建股票市场指数、用投票记录对美国参议员聚类、给用户推荐R语言包、分析社交图谱、给问题找到最佳算法等。各章对原理的叙述力求概念清晰、表达准确,突出理论联系实际,富有启发性,易于理解。在探索这些案例的过程中用到的基本工具就是R编程语言。
本书主要内容:
· 开发一个朴素贝叶斯分类器,仅仅根据邮件的文本信息来判断邮件是否是垃圾邮件;
· 使用线性回归来预测互联网排名前1000网站的PV;
· 利用文本回归理解图书中词与词之间的关系;
· 通过尝试破译一个简单的密码来学习优化技术;
· 利用无监督学习构建股票市场指数,用于衡量整体市场行情;
· 根据美国参议院的投票情况,从统计学的角度对美国参议员聚类;
· 通过k近邻算法向用户推荐R语言包;
· 利用Twitter数据构建一个“你可能感兴趣的人”的推荐系统;
· 模型比较:给问题找到最佳算法。
- 前言
- 第1章 使用r语言
- r与机器学习
- 第2章 数据分析
- 分析与验证
- 什么是数据
- 推断数据的类型
- 推断数据的含义
- 数值摘要表
- 均值、中位数、众数
- 分位数
- 标准差和方差
- 可视化分析数据
- 列相关的可视化
- 第3章 分类:垃圾过滤
- 非此即彼:二分类
- 漫谈条件概率
- 试写第一个贝叶斯垃圾分类器
- 第4章 排序:智能收件箱
- .次序未知时该如何排序
- 按优先级给邮件排序
- 实现一个智能收件箱
- 第5章 回归模型:预测网页访问量
- 回归模型简介
- 预测网页流量
- 定义相关性
- 第6章 正则化:文本回归
- 数据列之间的非线性关系:超越直线
- 避免过拟合的方法
- 文本回归
- 第7章 优化:密码破译
- 优化简介
- 岭回归
- 密码破译优化问题
- 第8章 pca:构建股票市场指数
- 无监督学习
- 主成分分析
- 第9章 mds:可视化地研究参议员相似性
- 基于相似性聚类
- 如何对美国参议员做聚类
- 第10章 knn:推荐系统
- k近邻算法
- r语言程序包安装数据
- 第11章 分析社交图谱
- 社交网络分析
- 用黑客的方法研究twitter的社交关系图数据
- 分析twitter社交网络
- 第12章 模型比较
- svm:支持向量机
- 算法比较
- 参考文献
书名:机器学习:实用案例解析
译者:陈开江, 刘逸哲, 孟晓楠 译
国内出版社:机械工业出版社
出版时间:2013年04月
页数:288
书号:978-7-111-41731-6
原版书书名:Machine Learning for Hackers
原版书出版商:O'Reilly Media
Drew Conway
Drew Conway 机器学习专家,拥有丰富的数据分析、处理工作经验。目前主要利用数学、统计学和计算机技术研究国际关系、冲突和恐怖主义等。他拥有纽约大学博士学位,曾为多种杂志撰写文章,是机器学习领域的著名学者。
John Myles White
John Myles White 机器学习专家,拥有丰富的数据分析、处理工作经验。目前主要从理论和实验的角度来研究人类如何做出决定,同时还是ProjectTemplate和log4r等流行R语言程序包的主要维护者。他拥有普林斯顿大学博士学位,发表过许多关于机器学习的论文,并在众多国际会议上发表演讲。