利用Python进行数据分析
唐学韬 等译
出版时间:2013年10月
页数:451
“科学计算和数据分析社区已经等待这本书很多年了:大量具体的实践建议,以及大量综合应用方法。本书在未来几年里肯定会成为Python领域中技术计算的权威指南。”
——Fernando Pérez
加州大学伯克利分校研究科学家,
IPython的创始人之一
还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程?本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题。
由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。
· 将IPython这个交互式Shell作为你的首要开发环境。
· 学习NumPy(Numerical Python)的基础和高级知识。
· 从pandas库的数据分析工具开始。
· 利用高性能工具对数据进行加载、清理、转换、合并以及重塑。
· 利用matplotlib创建散点图以及静态或交互式的可视化结果。
· 利用pandas的groupby功能对数据集进行切片、切块和汇总操作。
· 处理各种各样的时间序列数据。
· 通过详细的案例学习如何解决Web分析、社会科学、金融学以及经济学等领域的问题。
Wes McKinney 资深数据分析专家,对各种Python库(包括NumPy、pandas、matplotlib以及IPython等)都有深入研究,并在大量的实践中积累了丰富的经验。撰写了大量与Python数据分析相关的经典文章,被各大技术社区争相转载,是Python和开源技术社区公认的权威人物之一。开发了用于数据分析的著名开源Python库——pandas,广获用户好评。在创建Lambda Foundry(一家致力于企业数据分析的公司)之前,他曾是AQR Capital Management的定量分析师。
- 前言
- 第1章 准备工作
- 本书主要内容
- 为什么要使用Python进行数据分析
- 重要的Python库
- 安装和设置
- 社区和研讨会
- 使用本书
- 致谢
- 第2章 引言
- 来自bit.ly的1.usa.gov数据
- MovieLens 1M数据集
- 1880—2010年间全美婴儿姓名
- 小结及展望
- 第3章 IPython:一种交互式计算和开发环境
- IPython基础
- 内省
- 使用命令历史
- 与操作系统交互
- 软件开发工具
- IPython HTML Notebook
- 利用IPython提高代码开发效率的几点提示
- 高级IPython功能
- 致谢
- 第4章 NumPy基础:数组和矢量计算
- NumPy的ndarray:一种多维数组对象
- 通用函数:快速的元素级数组函数
- 利用数组进行数据处理
- 用于数组的文件输入输出
- 线性代数
- 随机数生成
- 范例:随机漫步
- 第5章 pandas入门
- pandas的数据结构介绍
- 基本功能
- 汇总和计算描述统计
- 处理缺失数据
- 层次化索引
- 其他有关pandas的话题
- 第6章 数据加载、存储与文件格式
- 读写文本格式的数据
- 二进制数据格式
- 使用HTML和Web API
- 使用数据库
- 第7章 数据规整化:清理、转换、合并、重塑
- 合并数据集
- 重塑和轴向旋转
- 数据转换
- 字符串操作
- 示例:USDA食品数据库
- 第8章 绘图和可视化
- matplotlib API入门
- pandas中的绘图函数
- 绘制地图:图形化显示海地地震危机数据
- Python图形化工具生态系统
- 第9章 数据聚合与分组运算
- GroupBy技术
- 数据聚合
- 分组级运算和转换
- 透视表和交叉表
- 示例:2012联邦选举委员会数据库
- 第10章 时间序列
- 日期和时间数据类型及工具
- 时间序列基础
- 日期的范围、频率以及移动
- 时区处理
- 时期及其算术运算
- 重采样及频率转换
- 时间序列绘图
- 移动窗口函数
- 性能和内存使用方面的注意事项
- 第11章 金融和经济数据应用
- 数据规整化方面的话题
- 分组变换和分析
- 更多示例应用
- 第12章 NumPy高级应用
- ndarray对象的内部机理
- 高级数组操作
- 广播
- ufunc高级应用
- 结构化和记录式数组
- 更多有关排序的话题
- NumPy的matrix类
- 高级数组输入输出
- 性能建议
- 附录A Python语言精要
书名:利用Python进行数据分析
译者:唐学韬 等译
国内出版社:机械工业出版社
出版时间:2013年10月
页数:451
书号:978-7-111-43673-7
原版书书名:Python for Data Analysis
原版书出版商:O'Reilly Media
Wes McKinney
Wes McKinney是纽约的一名数据分析高手和企业主。在2007年获得MIT的数学学士学位之后,他到位于康涅狄格州格林威治市(Greenwich,CT)的AQR Capital Management公司从事定量金融方面的工作。由于不满那些数据分析工具的各种不好用,他开始学习Python,并于2008年开始构建pandas项目。他目前是Python科学计算社区的活跃分子,而且积极倡导在数据分析、金融以及统计应用中使用Python。
本书封面上的那只动物是一只笔尾树鼩(拉丁名为Ptilocercus lowii)。笔尾树鼩是笔尾树鼩科(Ptilocercidae)笔尾树鼩属(Ptilocercus)中的唯一物种,其他树鼩都属于树鼩科(Tupaiidae)。树鼩的特征是长长的尾巴和柔软的红棕色皮毛。从名字上就能看出来,笔尾树鼩有一条形如羽毛笔的尾巴。树鼩是杂食性动物,以昆虫、水果、种子以及小型脊椎动物为主要食物。
主要分布于印度尼西亚、马来西亚和泰国,这些野生哺乳动物以惯于长期饮酒而著称。马来西亚树鼩每天要花费数小时食用天然发酵的玻淡棕榈花蜜,相当于大约10到12杯酒精含量为3.8%的酒。尽管如此,从来也没有一只笔尾树鼩喝醉过,这得归功于它们那令人印象深刻的乙醇降解能力,包括一种人类所没有的酒精代谢方式。跟其他哺乳动物相比(包括人类?),它们还有另外一个令人印象深刻的特点——大脑跟身体的质量比。
虽然这种野生动物的名字叫笔尾树鼩(pen-tailed tree-shrew),但它们并不是真正的鼠类(shrew),而是更接近于灵长类(primates)。因此,树鼩在近视、心理社会应激、肝炎等医学实验中成为灵长类动物的一种替代品。