泰坦尼克数据是
kaggle
中最经典的数据之一,本文通过对原数据的处理,利用决策树实现对幸存者的预测可视化。主要掌握的知识点:
- 数据的导入及清洗
- 缺失值如何处理
- 删除不必要的属性
- 如何将文字转成数字,让
sklearn
进行处理
导入相关模块和包
1 | import pandas as pd |
导入数据及查看信息
pandas
中怎么导入数据:pd.read_csv("file_path")
- 观察数据信息
head()
查看前n行数据,默认是前5行info()
查看数据的各种属性和标签
- 数据中部分属性存在缺失值