XGBoost / LightGBM / CatBoost 对比

先把结论放前面

GBDT（梯度提升决策树）是表格数据上最强的机器学习模型家族，XGBoost / LightGBM / CatBoost 是这个家族的三个主流实现。

选型建议：

表格数据，高基线要求 → 先用 CatBoost（最强 baseline，调参最少）
大数据量（数亿行），训练速度优先 → LightGBM
需要完整 CART 树结构，可解释性优先 → XGBoost
不确定，先跑一个 baseline → 三者都试试，看验证集哪个更好

为什么这个问题值得单独讲

这三个库在面试和工程里都会被问到，但大多数比较停留在"LightGBM 更快，CatBoost 更好，XGBoost 是老大哥"。真正的区别在于建树算法、分裂策略、对类别特征的处理方式，这三点决定了各自在不同数据上的实际表现。

共同的父亲：Gradient Boosting

三个库都基于同一个框架：用加法模型 + 前向分步算法，每次新增一棵树去拟合损失函数的负梯度（残差）。

区别在于：每次分裂时怎么找最佳分裂点、怎么处理类别特征、怎么控制过拟合。

XGBoost

核心机制

XGBoost 的分裂目标是：找到使目标函数下降最多的分裂点。

目标函数 = 损失函数 + 正则项（树的复杂度）

Obj = Σ L(y_i, ŷ_i) + Σ Ω(f_k)

其中 Ω(f) = γT + ½λ Σ w_j²
T = 叶节点数，w_j = 第 j 个叶节点的权重

每次分裂时，枚举所有候选分裂点（精确贪婪），计算分裂前后的 Obj 差值（Gain），选 Gain 最大的分裂点。

关键特性

Shrinkage（学习率缩减）：每棵树的输出乘以一个 learning_rate（通常 0.1），减少单棵树的影响，提升泛化。

列抽样（Column Subsampling）：每棵树随机选一部分特征来分裂，减少过拟合，类似 Random Forest。

早停（Early Stopping）：验证集 loss 连续 N 轮不下降则停止训练，防止过拟合。

弱点

精确贪婪分裂：需要枚举所有候选分裂点，大数据量下速度慢
对类别特征：XGBoost 本身不支持类别特征，需要做 One-Hot 或 Label Encoding
缺失值：XGBoost 自身可以处理缺失值，但分裂方向需要在数据里学习，不是最优

LightGBM

核心机制：Histogram-Based 分裂

LightGBM 把连续特征离散化到固定数量的 bins（默认 255），每个 bin 就是一个直方图的柱子。分裂时不枚举所有候选点，只枚举 bin 的边界。

原始数据：  [0.2, 0.3, 0.9, 1.1, 1.8, 2.0, 2.3, 9.0]
Histogram:  Bin0=[0.2,0.3,0.9] Bin1=[1.1,1.8] Bin2=[2.0,2.3] Bin3=[9.0]
分裂评估时：只需比较 Bin 边界

这使得 LightGBM 的复杂度从 O(N × F) 降到了 O(N × F_bins)，在大数据量时快 10 倍以上。

核心机制：GOSS（Gradient-based One-Side Sampling）

GOSS 在每轮分裂时不使用全部样本，而是：

保留梯度大的样本（对分裂信息量大的样本）
随机采样梯度小的样本（信息量少的样本）

结果：用更少的样本，达到接近全量样本的分裂质量。

核心机制：EFB（Exclusive Feature Bundling）

高维稀疏数据里，很多特征是互斥的（不会同时为非零值，如 One-Hot 后的类别特征）。EFB 把互斥特征打包成一个bundle，在分裂时当作一个特征处理，大幅减少特征数。

Leaf-wise 生长策略

XGBoost 是 Level-wise（每一层所有节点都分裂），LightGBM 是 Leaf-wise（每次选增益最大的叶节点分裂）。

XGBoost:  同一深度的所有节点分裂 → 更稳定，不容易过拟合
LightGBM: 只分裂当前最优点 → 更快，但可能过拟合

LightGBM 的 leaf-wise + histogram 是它速度快的核心原因。

对类别特征的支持

LightGBM 原生支持类别特征，直接传入 categorical_feature 参数，内部会用 unique 值分裂，比 One-Hot 更高效。

CatBoost

核心机制：Ordered Boosting

CatBoost 最大的创新是 Ordered Boosting，解决的是梯度提升里的**预测偏移（Prediction Shift）**问题。

问题是什么：传统 GBDT 在训练第 t 棵树时，用的是前 t-1 棵树的预测来计算残差。这些预测本身是有偏的（因为是用同样的数据训练的），这个偏移会累积。

Ordered Boosting 的解决方案：用不同顺序的数据来训练不同棵树。第 i 棵树的残差用前 i-1 棵树没见过的样本（用一个排过序的 permutation）来计算。

实际工程实现：用多个 random permutations + 平均，大幅减少预测偏移。

对类别特征的原生支持

CatBoost 的类别特征处理是三者里最强的：

不需要 One-Hot，不需要 Label Encoding，直接传入类别特征
用 Ordered Target Statistics：对每个类别值，计算对应目标变量的均值（带噪声防止过拟合）
对高基数类别（用户ID、商品ID）尤其有效

from catboost import CatBoostClassifier

model = CatBoostClassifier(
    cat_features=['user_id', 'product_category', 'city'],  # 直接传类别特征
    iterations=1000,
    learning_rate=0.1,
    depth=6
)
model.fit(X_train, y_train)

对缺失值的处理

CatBoost 对缺失值的处理也比 XGBoost 和 LightGBM 更细致：缺失值在分裂时被当作一个独立的分组，最优分裂方向从数据里自动学习。

三者全面对比

维度	XGBoost	LightGBM	CatBoost
分裂算法	精确贪婪（Exact）	Histogram + GOSS + EFB	Ordered Boosting + Histogram
树生长策略	Level-wise	Leaf-wise	Symmetric Tree（对称树）
类别特征	不原生支持（需编码）	原生支持	最强（Ordered Target Statistics）
缺失值处理	自动处理（分裂方向需学习）	自动处理	最细致
训练速度	慢（大数据量）	最快	中等
内存占用	高	最低（Histogram + GOSS）	较高
预测速度	快	快	中等（对称树推理快）
调参难度	高（参数多）	中等	低（默认参数效果好）
正则化	L1/L2/Min_child_weight	L1/L2/Min_Data_In_Leaf	L2/TensorBoard
多分类	支持	支持	支持
文本特征	不支持	不支持	支持（CatBoostTextFeatures）
适合规模	中小规模数据	超大规模数据	中大规模数据
基准表现	稳定	稳定（略低于 CatBoost）	通常最强
缺失值处理	OK	OK	最细致

选型决策树

训练数据量 < 10 万行？
  → CatBoost（默认参数效果最好，省时间）

训练数据量 > 1000 万行？
  → LightGBM（速度优势明显）

数据里类别特征很多（> 30%）？
  → CatBoost（原生支持，高基线保证）

需要可解释性（Feature Importance / SHAP）？
  → XGBoost（Feature Importance 最稳定，SHAP 集成好）

没有特殊偏好？
  → 先跑 CatBoost baseline，再跑 LightGBM，看验证集哪个好

生产落地注意事项

类别特征的处理原则

CatBoost：直接传类别特征，不需要任何处理
LightGBM：传类别特征，内部做最优分裂
XGBoost：强烈建议做 target encoding 或 leave-one-out encoding，不要直接用 Label Encoding

过拟合的处理顺序

先加正则（reg_lambda / reg_alpha / min_child_weight）
再调树结构（max_depth / num_leaves）
最后调学习率 + 早停（learning_rate + early_stopping_rounds）

特征重要性

三个库都有 Feature Importance，但原理不同：

XGBoost：gain（每次分裂带来的平均增益），最常用
LightGBM：split（分裂次数）vs gain（增益）
CatBoost：PredictionValuesChange（对预测值的影响程度）

建议统一用 SHAP 做可解释性分析，而不是原生 Feature Importance。

如果放到面试里怎么讲

GBDT 面试通常有两类问题：

第一类：原理题——"XGBoost 和 LightGBM 的区别是什么？"

我会从建树算法说起：XGBoost 用精确贪婪分裂，LightGBM 用 Histogram 把连续特征离散化到 bins，同时用 GOSS 对样本采样、EFB 对互斥特征打包。这三个机制让 LightGBM 在大数据量时快 10 倍以上，但 XGBoost 的 level-wise 生长更稳定。

第二类：实践题——"给你一个表格数据，怎么选模型？"

我会先问数据规模、类别特征比例、是否需要可解释性。如果数据量不大（10 万行以下），CatBoost 的默认参数通常最强；如果数据量很大（1000 万行以上），LightGBM 的速度优势明显；如果需要 SHAP 可解释性，XGBoost 和 LightGBM 都支持，但 XGBoost 的 Feature Importance 更稳定。

最后记几个点

LightGBM 的快来自三个机制：Histogram（离散化）、GOSS（梯度采样）、EFB（特征打包）
CatBoost 的核心创新是 Ordered Boosting（减少预测偏移），对类别特征处理最强
XGBoost 是精确贪婪分裂，可解释性最好，但速度最慢
大数据量（>1000万行）选 LightGBM，高类别特征比例选 CatBoost
调参顺序：正则 → 树结构 → 学习率 + 早停
SHAP 是做可解释性的标准工具，不依赖特定库
三者可以同时用：快速训练选 LightGBM，最终生产模型用 CatBoost/XGBoost