本文中讲解是的利用决策树的方法将
sklearn
中自带的红酒数据进行划分和可视化显示,学习决策树的几个重要参数。
决策树在sklearn的应用
决策树Decision Tree
是一种非参数的有监督学习方法,它能够从一系列有特征和标签的数据中总结出决策规
则,并用树状图的结构来呈现这些规则,以解决分类和回归问题 。
解决两个重点问题
- 如何从数据中找出最佳节点和最佳分枝
- 如何让决策树停止生长,防止过拟合
sklearn中的决策树
决策树相关的类都在tree
模块下面,总共5个
建模的基本流程
- 实例化
- 拟合
fit
- 计算准确度
score
1 | from sklearn import tree # 导入需要的模块 |
重要参数
决策树算法中所有的参数为
1 | class sklearn.tree.DecisionTreeClassifier (criterion=’gini’, splitter=’best’, max_depth=None, |
1.criterion
用来确定不纯度的计算方法有两种,不纯度越低越好
-
信息熵
entropy
,实际上是信息增益 -
基尼系数
gini
(默认)
二者比较
-
信息熵对不纯度更加敏感
-
信息熵更慢些,存在对数运算
-
数据维度大,噪音很大使用基尼系数
-
当拟合程度不够的时候,使用基尼系数
导入模块和库
1 | import pandas as pd |
数据生成和信息查看
1 | wine = load_wine() # 实例化红酒数据 |
1 | array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00, |
1 | wine.data.shape |
1 | array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, |
重点:如何将样本数据集和输出标签生成表格形式
1 | pd.concat([pd.DataFrame(wine.data), pd.DataFrame(wine.target)], axis=1) |
1 | wine.feature_names # 13个属性名称 |
1 | # 结果 |
1 | wine.target_names # 标签的3个分类 |
1 | Xtrain, Xtest, ytrain, ytest = train_test_split(wine.data, wine.target, test_size=0.3) # 随机划分数据 |
1 | ytrain |
1 | array([1, 1, 0, 1, 1, 2, 1, 1, 1, 2, 0, 0, 2, 0, 1, 0, 0, 0, 1, 1, 1, 0, |
建模过程
1 | clf = tree.DecisionTreeClassifier(criterion="entropy") |
1 | import os # 画图的时候一定要加上路径 |
画图
1 | feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类', |
结果信息
1 | clf.feature_importances_ # 使用特征的数量的重要性 |
1 | array([0.02366882, 0.04362795, 0. , 0. , 0. , |
1 | [*zip(feature_name,clf.feature_importances_)] # 将使用的特征和名称进行一一对应 |
1 | [('酒精', 0.023668823820059623), |
random_state
:设置随机模式的参数,默认是None
,高维数据表现更明显splitter
:有两个参数供选择best
:默认,每次选择更重要的属性进行分类random
:保证选择特征的随机性,树会更深更大,降低对训练数据的拟合
1 | clf = tree.DecisionTreeClassifier(criterion="entropy" |
1 | feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类', |
剪枝参数
过拟合:在训练数据集上表现的很好,在测试数据集上却很差
max_depth
限制树的最大深度,超过设定深度的树枝全部剪掉min_samples_leaf & min_samples_split
min_samples_leaf
限定,一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf
个训练样本
min_samples_split
限定,一个节点必须要包含至少min_samples_split
个训练样本,这个节点才允许被分枝,否则分枝就不会发生。
1 | clf = tree.DecisionTreeClassifier(criterion="entropy" |
1 | score = clf.score(Xtest, ytest) # 返回预测的准确度 |
max_features
- 限制分枝是考虑的特征个数,超过限制的个数直接舍弃掉
- 限制高维数据的过拟合剪枝参数,方法暴力
min_impurity_decrease
- 限制信息增益的大小
- 小于设置值不会发生分枝
1 | # 学习曲线 |
重要属性和接口
1 | # 测试样本所在的叶子节点的索引 |
1 | array([ 6, 7, 6, 18, 18, 6, 12, 16, 16, 9, 7, 16, 18, 7, 5, 12, 14, |
1 | #返回分类测试样本的分类或者回归结果 |
1 | array([1, 2, 1, 0, 0, 1, 1, 0, 0, 1, 2, 0, 0, 2, 2, 1, 1, 0, 2, 1, 2, 1, |
一个属性:feature_importances
四个接口:fit,score,apply,predict