图解pandas的groupby机制

图解Pandas的groupby机制

在自己的数据处理分析日常中，经常会遇到对数据的某个字段进行分组再求和或均值等其他操作的需求，比如电商中根据不同的支付用户、不同的月份、不同的性别、不同的用户来源进行用户的画像细分，来研究不同组用户的偏好和消费情况等。

在pandas中自己都是使用groupby来解决这类问题，本文结合一份模拟的数据来讲解groupby的内部机制

模拟数据

为了方便解释，自己模拟了一份虚拟数据，仅包含3个字段：员工姓名employees、薪资salary、得分score

import pandas as pd
import numpy as np

employees = ["小明","小周","小孙"]   # 3位员工

df=pd.DataFrame({
    "employees":[employees[x] for x in np.random.randint(0,len(employees),9)],  # 在员工中重复选择9个人
    "salary":np.random.randint(800,1000,9),  # 800-1000之间的薪资选择9个数值
    "score":np.random.randint(6,11,9)  # 6-11的分数选择9个
})

df

DataFrameGroupBy对象

内部情况

我们现在根据员工进行groupby分组，得到的一个DataFrameGroupBy对象

# groupbying = df.groupby("employees")  by可以省略

groupbying = df.groupby(by="employees")
groupbying

那这个DataFrameGroupBy对象到底长的什么样子？我们用list展开看看：

1
2
3

# 查看对象内部的情况

list(groupbying)

我们终于看到了这个对象的神秘面目：

对象是一个大列表，里面包含3个元素，每个元素有个元组对象：[tuple1,tuple2,tuple3]
元素就是按照我们指定的员工进行分组：分别是小周、小孙、小明的全部数据信息

我们看看小明的具体信息：发现xiaoming是一个元组，转成列表之后看下具体信息：

我们发现：元组转成列表后的第一个信息就是分组的员工名，第二个就是这个员工的全部信息构成的一个小DataFrame数据帧。

下面的图形能够很好的展示DataFrameGroupBy对象的内部情况：

总结：当我们根据某个字段进行group机制分组的时候，最后能够生成多少个子DataFrame，取决于我们的字段中有多少个不同的元素（案例有3个）；当我们分组之后，便可以进行后续的各种聚合操作，比如sum、mean、min等。

遍历DataFrameGroupBy对象

1
2
3

for name,group in groupbying:  # 遍历.DataFrameGroupBy对象
    print(name)
    print(group)

选择分组get_group()

对DataFrameGroupBy对象使用get_group()方法，能够让我们得到分组元素中的指定组的数据：

同一个列名使用不同聚合函数

分组之后对同一个列名使用不同的函数，函数使用列表形式：下面👇表示的是对score分别求和、最大值、最小值、均值、个数（size）

1 2	df9 = df.groupby("employees")["score"].agg(["sum","max","min","mean","size"]).reset_index() df9

聚合函数

相信很多朋友都知道聚合操作或者聚合函数，在SQL中我们可以这样写：

select
	name  -- 姓名
	,sum(score)  -- 分数最大值
	,avg(score)  --  平均值
from score
group by name  -- 根据学生姓名分组统计

在上面的SQL语句中，sum和avg就是常见的聚合操作，归类整理下pandas常用的聚合操作：

函数	含义
min/max	最小值、最大值
sum	求和
mean	均值
median	中位数
std	标准差
var	方差
count	计数统计

除了上面的聚合函数，我们还可以使用numpy库的方法，比如unique（不同的元素）、nunique（不同元素的个数，count是统计全部）等，下面会结合实际的例子来说明。

agg聚合操作

聚合操作是通过agg来完成的，可以指定一个列或者多个列分别使用不同的聚合函数来聚合。

1、对单个列进行聚合操作，比如：我们想对salary列求总和sum：

1
2
3

# df.groupby("employees")["salary"].sum
# 如果只是单个元素，上下两种写法等价
df.groupby("employees").agg({"salary":"sum"})

一般情况下，结果是一个以分组字段为行索引的数据帧，那如果我们也想把这个行索引变成数据帧中的一个列名属性，使用reset_index完成：

一行代码写作为：

2、对多个列使用不同的聚合函数，比如：我们想对salry求和、对score求均值，使用字段对的方式来实现

salary_score = df.groupby("employees").agg({"salary":"sum",
                                            "score":"mean"
                                           })
salary_score