Pandas数据分析
到底用哪个名字呢?
- 《Pandas数据分析从入门到实战》
- 《Pandas活学活用》
- 《Pandas数据分析之道》
- 《深入浅出Pandas数据分析》
基础篇
第一章 准备工作
本书内容
为何学习数据分析
环境准备
- Anacoda安装
- Jupyter Notebook使用
第二章 Pandas初相识
Python语言基础
Numpy基础
Pandas介绍
- Pandas简介
- Pandas能做什么
Pandas数据结构(OK)
- Series结构数据
- DataFrame结构数据
Pandas快速入门(OK)
本章小结
第三章 Pandas索引
概述
索引类型(OK)
单层索引(OK)
多层索引(OK)
索引属性(OK)
索引设置 (OK)
本章小结
第四章 数据输入和输出
概述
手动创建数据(OK)
- 创建Series
- 创建DataFrame
文件数据(OK)
- 操作Excel
- 操作CSV
- 操作TXT
- 操作json
- 剪贴板
二进制数据Pickle
在线数据(OK)
- 读取HTML网页数据
- 读取GitHub数据
数据库交互(OK)
- 基于pymysql
- 基于sqlalchemy
本章小结
第五章 Pandas基础操作
概述
数据类型
-
Pandas类型(OK)
-
pd.to_XXX方法(OK)
-
astype()方法(OK)
-
筛选指定类型数据(OK)
数据探索(OK)
- 样本量
- 数据形状
- 数据维度
- 描述统计信息
- 数据类型
- 索引信息
- 缺失值情况
- 数据分布
统计方法(OK)
本章小结
数据处理篇
第六章 数据提取
概述
基本取数(OK)
条件取数(OK)
-
数值型条件取数(OK)
-
文本型条件取数(OK)
-
条件联用取数(OK)
切片取数(OK)
- Python切片介绍
- 切片取数
属性取数(OK)
基于函数取数(OK)
本章小结
第七章 数据清洗与转换
概述
缺失值处理(OK)
- 判断缺失值
- 筛选缺失值
- 填充缺失值
重复值处理(OK)
- 判断重复值
- 删除重复值
- 案例实战
数据转换
- 使用函数apply转换(OK)
- 数据离散化和分箱(OK)
- 哑变量get_dummies(OK)
- 因子化pd.factorize(OK)
数据归一化/标准化(OK)
- 概述
- 线性归一化(Normalization)
- 均值归一化(Mean Normalization)
- 标准化(Standardization)
本章小节
第八章 数据合并
概述
合并数据pd.merge (OK)
拼接数据pd.concat(OK)
追加数据pd.append(OK)
连接数据pd.join(OK)
联合数据pd.combine(OK)
更新数据pd.update(OK)
分配数据pd.assign(OK)
本章小结
第九章 排序与排名
概述
索引排序sort_index(OK)
数据排序sort_values(OK)
数值大小排序nsmallest和nlargest(OK)
排名机制rank(OK)
本章小结
第十章 数据分组
概述
SAC过程(OK)
Groupby机制(OK)
- 分组函数
- groupby对象
聚合统计-Aggregation
变换Transformation
本章小结
数据分析篇
第十一章 数据重塑与透视
概述
数据堆叠(OK)
- stack
- unstack
数据转置(OK)
- T属性
- transpose方法
长宽表转化(OK)
- 长表转宽表melt
- 爆炸函数explode
- 宽表转长表wide_to_long
透视表和交叉表(OK)
- pivot(OK)
- pivot_table(OK)
- cross_table(OK)
本章小结
第十二章 文本数据处理
概述
object类型
Python字符串方法
Pandas向量化字符串
- 常见向量化函数
- 正则表达式
- 子串匹配和提取
- 替他字符串方法