利用Python进行数据分析-案例1-USA.gov数据
数据集特点及目标
- 文件中的数据为json格式,需要json包,将其转成相应的Python能够处理的数据形式
- 数据是关于URL和短链接的相关信息
- 统计的是每个用户的是否为Windows或者非Windows用户
涉及知识点
- 如何处理json数据和如何逐行读取数据
- Python中列表解析式的应用
- pandas中dropna、fillna、take等函数的使用
- 如何进行标准化
- seaborn库的基本使用
代码实现
1 | import pandas as pd |
1 | path = '/Users/piqianchao/data-visualization/pydata-book/datasets/bitly_usagov/example.txt' |
1 | records = [json.loads(line) for line in open(path)] # json---> Python字典形式 |
1 | # 最常出现的时区 tz |
python纯代码实现
1 | # 1. 如何进行计数 |
1 | # 如何获取前10位的时区及其计数值 |
1 | top_counts(counts) |
1 | # 方法2:通过Collections.Counter类 |
pandas实现
1 | frame = pd.DataFrame(records) # records 是个字典形式 |
1 | tz_counts = frame['tz'].value_counts() # 统计每个数目并且输出 |