Fork me on GitHub

机器学习算法竞赛实战-竞赛问题建模

机器学习算法竞赛实战-竞赛问题建模

更新《机器学习算法竞赛实战》一书的阅读笔记,更多详细的内容请阅读原书。本文的主要内容包含:

  • 竞赛问题的3个主要部分
  • -如何理解竞赛问题
  • 机器学习的样本选择
  • 如何线下评估模型
  • 实战案例

竞赛问题建模

针对具体问题的建模分为3个部分:

  • 赛题理解
  • 样本选择
  • 线下评估策略

赛题理解

  1. 业务背景:深入业务、明确目标
  2. 数据理解:数据基础层、数据描述层;前者关注:字段来源、取数逻辑、计算逻辑、生产过程等,后者关注:数据字段的统计量,便于进行统计分析和概括描述。
  3. 评价指标:
  4. 分类模型:错误率、精度、准确率(查准率precision)、召回率(recall,查全率)、F1_score、ROC曲线、AUC和对数损失(logloss)
  5. 回归模型:平均绝对误差MAE、均方误差MSE、均方根误差RMSE、平均百分比误差MAPE

样本选择

主要原因

影响数据质量的4个原因:

  1. 数据集过大(侧重数据量)
  2. 存在噪声和异常值
  3. 样本数据冗余(侧重数据特征的冗余),一般进行特征筛选(降维)
  4. 正负样本不均衡:使用欠采样或者过采样来解决

准确方法

解决数据集过大或者正负样本不均衡的方法:

  1. 简单随机抽样:有放回和无放回
  2. 分层采样:评分加权处理(对不同的类别进行加权)、欠采样(随机欠采样、Tomek Links)、过采样(随机过采样、SMOTE算法)

应用常景

什么场景下需要处理样本不均衡问题?

  • 对召回率有特别要求:即对正样本的预测比负样本重要,如果不处理的话,很难取得较好的建模结果。
  • 如果评价指标是AUC:处理或不处理差别不大
  • 如果正负样本同等重要,无需多做处理

线下评估策略

  1. 强时序性问题:将数据按照时间的先后顺序进行排序,选择最近时间的数据作为测试集
  2. 弱时序性问题:K折交叉验证
    • K=2,2折交叉验证:将数据分为训练集和测试集,受数据划分方式影响大
    • K=N,N折交叉验证(留一验证 leave-one-out Validation),N-1个训练集,1个测试集;训练过程计算量大
    • K=5或者10,折中办法:比如K=5表示取其中4份作为训练集,1份作为验证集,循环5次,取5次训练的评价结果的均值或者投票表决
1
2
3
4
5
6
7
8
9
10
# 10折交叉验证

from sklearn.model_selection import KFold
NFOLDS = 10 # 控制折数

folds = KFold(n_splits=NFOLDS, shuffle=True, random_state=2023)

for trn_index, val_index in folds.split(X_train, y_train):
train_df, train_label = X_train.iloc[trn_index,:], y_train[trn_index] # 根据对应的索引号来取数
valid_df, valid_label = X_train.iloc[val_index,:], y_train[val_index]

实战案例

导入库

In [1]:

1
2
3
4
5
6
7
8
9
10
11
import pandas as pd
import numpy as np

from sklearn.model_selection import KFold # K折交叉验证
from sklearn.metrics import mean_squared_error #评价指标mse
from sklearn.preprocessing import OneHotEncoder # 独热码

import lightgbm as lgb # lgb模型

import warnings
warnings.filterwarnings("ignore")

加载数据

In [2]:

1
2
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

In [3]:

1
train.head()

查看数据的基本信息情况:

In [4]:

1
train.isnull().sum() # 缺失值情况

Out[4]:

1
2
3
4
5
6
7
8
9
10
11
12
Id                 0
MSSubClass 0
MSZoning 0
LotFrontage 259
LotArea 0
...
MoSold 0
YrSold 0
SaleType 0
SaleCondition 0
SalePrice 0
Length: 81, dtype: int64

In [5]:

1
train.dtypes  # 字段类型

Out[5]:

1
2
3
4
5
6
7
8
9
10
11
12
Id                 int64
MSSubClass int64
MSZoning object
LotFrontage float64
LotArea int64
...
MoSold int64
YrSold int64
SaleType object
SaleCondition object
SalePrice int64
Length: 81, dtype: object

In [6]:

1
train.describe()  # 描述统计信息

数据预处理

In [7]:

1
2
all_data = pd.concat([train,test])  # 数据合并
all_data = pd.get_dummies(all_data) # 哑变量处理

In [8]:

1
2
# 缺失值均值填充
all_data = all_data.fillna(all_data.mean())

In [9]:

1
all_data.head()

数据集划分

In [10]:

1
2
3
4
X_train = all_data[:train.shape[0]]
X_test = all_data[train.shape[0]:]

y = train.SalePrice

模型训练与评估

In [11]:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
from sklearn.model_selection import KFold
NFOLDS = 5 # 控制折数
folds = KFold(n_splits=NFOLDS, shuffle=True, random_state=2023)

params = {"num_leaves":63,
"min_child_samples":50,
"objective":"regression",
"learning_rate":0.01,
"boosting_type":"gbdt",
"metric":"rmse"
}

for trn_index, val_index in folds.split(X_train, y):
train_df, train_label = X_train.iloc[trn_index,:], y[trn_index] # 根据对应的索引号来取数
valid_df, valid_label = X_train.iloc[val_index,:], y[val_index]

dtrn = lgb.Dataset(train_df, label=train_label)
dval = lgb.Dataset(valid_df, label=valid_label)

dst = lgb.train(params,
dtrn,
num_boost_round=1000,
valid_sets=[dtrn, dval], # 验证集数据
early_stopping_rounds=100,
verbose_eval=100
)

本文标题:机器学习算法竞赛实战-竞赛问题建模

发布时间:2023年02月21日 - 23:02

原始链接:http://www.renpeter.cn/2023/02/21/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%AE%97%E6%B3%95%E7%AB%9E%E8%B5%9B%E5%AE%9E%E6%88%98-%E7%AB%9E%E8%B5%9B%E9%97%AE%E9%A2%98%E5%BB%BA%E6%A8%A1.html

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。

Coffee or Tea