Pandas解决电商需求

Pandas解决一个电商需求

本文基于一份模拟的电商数据，讲解Pandas几个常用函数的使用技巧。

模拟的一份数据，有6个字段信息：

找出所有最终状态为通过的订单的【最早跟单员与对应时间】和【最晚审核员与对应时间】

比如订单S03，对应的数据应该为：

再比如S04订单：两个状态都是未通过，不在最终的结果里面

下面介绍下如何通过Pandas的函数来实现，主要用到的函数：

数据的排列是无序的，直接读取进来：

In [3]:

1 2	df1 = df[df["审核状态"] == "通过"] df1

确定通过的订单：

In [4]:

1 2	pass_orders = df1["订单号"].tolist() pass_orders

Out[4]:

1	['S02', 'S03', 'S01', 'S06']

In [5]:

1 2	df2 = df[df["订单号"].isin(pass_orders)] df2

In [6]:

df3 = df2.sort_values(["订单号","审核时间"],
                      ascending=[True,True],
                      ignore_index=True)
df3

在这里我们可以确定最终想要的数据：每个订单的所需信息

In [7]:

1 2	df4 = df3.drop_duplicates(subset=["订单号"], keep="first")[["订单号","跟单员","跟单时间"]] df4

Out[7]:

In [8]:

1 2	df5 = df3.drop_duplicates(subset=["订单号"], keep="last")[["订单号","审核员","审核时间"]] df5

Out[8]:

In [9]:

1 2	df6 = pd.merge(df4,df5) # 数据合并 df6

Out[9]: