Fork me on GitHub

pandas使用技巧-统计元素频数

pandas使用技巧-统计元素频数

之所以会写这篇文章是因为经常会做词云图,而做词云图一个很重要的因素就是要事先知道每个元素的出现的频数:也就是说通过它们出现次数的多少来决定它们的重要性,所以需要事先将它们的次数统计出来。

模拟数据

1
2
3
4
5
6
7
8
9
import pandas as pd
import numpy as np
from collections import Counter

name_list = ["小明","小红","张三","李四","关宇"]

# 从上面的name_list中随机抽取1000个名字,有放回的抽取,所以结果中会有重复
data = list(np.random.choice(name_list,1000,replace=True)) # 生成列表形式
data[:20]

需求:现在我们的需求就是统计上面的列表中每个名字出现了多少次

通过Python字典获取

1
2
3
4
5
dic = {}
for key in data:
dic[key] = dic.get(key,0) + 1

dic

  • key – 字典中要查找的键。
  • default – 如果指定键的值不存在时,返回该默认值。

利用collections下面的Counter类

1
2
3
4
from collections import Counter

result = Counter(data)
result

看下官网demo和统计出现最多的两个名字:

利用pandas中的value_counts()方法

这个方法太👍了

本文标题:pandas使用技巧-统计元素频数

发布时间:2021年03月27日 - 23:03

原始链接:http://www.renpeter.cn/2021/03/27/pandas%E4%BD%BF%E7%94%A8%E6%8A%80%E5%B7%A7-%E7%BB%9F%E8%AE%A1%E5%85%83%E7%B4%A0%E9%A2%91%E6%95%B0.html

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

Coffee or Tea