Pandas中3个宝藏函数

3个Pandas中的宝藏函数

大家好，我是Peter呀~

在利用Pandas进行数据处理的时候，我们经常需要对某行或者某列的数据、甚至是全部的元素执行某个相同的操作。

Pandas中的map、apply和applymap就可以解决绝大部分这样的数据处理需求，让你不再重复操作。本文结合具体的例子来讲解如何使用这3个宝藏函数。

Pandas连载文章

目前已经连载了17篇文章，其中1-16篇属于《深入浅出Pandas数据分析》的第一版，从第17篇的透视表和交叉表开始，属于进阶内容。

模拟数据

下面是一份主要模拟的数据，几位同学的个人信息（数据仅供学习）

import numpy as np
import pandas as pd

data = pd.DataFrame({"name":["小明","小红","小张","小周","小孙","小王"],
                     "sex":["男","女","女","男","男","男"],
                     "birthday":["2003-07-07","1993-08-09","1999-03-05","1995-08-19","2002-11-18","1996-07-01"],
                     "address":["深圳南山区","广州越秀区","浙江杭州","上海","北京海淀","湖北省武汉市武昌"],
                     "age":[18,28,22,26,19,25],
                     "height":[189,178,167,172,182,185],
                     "weight":[89,72,62,68,79,81]
                    })
data

我们看下数据类型：前面4个都是字符类型，后面的3个数值型

map

假设我们现在有个这样的需求：因为有时候处理数据的时候必须使用数值型数据，将上面数据的性别这栏中的男替换成1，女替换成0。

该如何实现呢？

方法1：循环

如果你不想搞得那么复杂：通过循环判断性别的男女，然后直接赋值来实现。

每次操作之前，我们先生成一个模拟数据的副本，不破坏原始数据

写个循环进行赋值：

方法2：map实现

循环的方法就是比较容易理解，写起来更方便；但是当我们的数据量过大的时候，循环就会太慢啦。使用map如何实现？

还是先生成一个副本：

1、通过字典的映射关系

2、写个函数传给map

map使用小结：使用字典或者函数传递给map方法，它都会对传入的数据逐个当做参数传入到字典或者函数中，然后得到映射的值

apply

apply方法在使用的时候和map是比较类似的，只不过apply更全、更强大，它能够传入更为复杂的函数，通过例子来讲解下。

参数

DataFrame.apply(
  func, # 待执行的函数
  axis=0,   # 沿着哪个轴操作，默认是0-index,1-column
  raw=False, # 是否转成numpy的ndarray数组进行操作，默认是false
  result_type=None, # expand’, ‘reduce’, ‘broadcast’, None  # 当axis=1执行，对列属性名进行操作
  args=(), # 两个可选参数
  **kwargs)