集成学习之Xgboost(21)

当前位置:

首页 > temp > 简明python教程 >

集成学习之Xgboost(21)

HR+λ−12(GL+GR)2HL+HR+λ−γ)

s c o r e = m a x (s c o r e, \frac{1}{2} \frac{G_{L}^{2}}{H_{L} + λ} + \frac{1}{2} \frac{G_{R}^{2}}{H_{R} + λ} - \frac{1}{2} \frac{(G_{L} + G_{R})^{2}}{H_{L} + H_{R} + λ} - γ)

3) 基于最大score对应的划分特征和特征值分裂子树。

4) 如果最大score为0，则当前决策树建立完毕，计算所有叶子区域的 $w_{t j}$ , 得到弱学习器 $h_{t} (x)$ ，更新强学习器 $f_{t} (x)$ ,进入下一轮弱学习器迭代.如果最大score不是0，则转到第2)步继续尝试分裂决策树。

XGBoost算法运行效率的优化

Boosting算法的弱学习器是没法并行迭代的，但是单个弱学习器里面最耗时的是决策树的分裂过程，XGBoost针对这个分裂做了比较大的并行优化。对于不同的特征的特征划分点，XGBoost分别在不同的线程中并行选择分裂的最大增益。

同时，对训练的每个特征排序并且以块的的结构存储在内存中，方便后面迭代重复使用，减少计算量。计算量的减少参见上面算法流程总结，首先默认所有的样本都在右子树，然后从小到大迭代，依次放入左子树，并寻找最优的分裂点。这样做可以减少很多不必要的比较。

具体的过程如下图所示：

此外，通过设置合理的分块的大小，充分利用了CPU缓存进行读取加速（cache-aware access）。使得数据读取的速度更快。另外，通过将分块进行压缩（block compressoin）并存储到硬盘上，并且通过将分块分区到多个硬盘上实现了更大的IO。

XGBoosting涉及的算法工程优化策略：

1. 对内存的优化（列分块）；

2. 对CPU Cache的优化：a) 提前取数(Prefetching)，b) 合理设置分块大小；

3. 对IO的优化：a) Block压缩优化，b) Block 分片优化。

XGBoost算法健壮性的优化

XGBoost在算法健壮性的优化方面，除了上面讲到的正则化项提高算法的泛化能力外，XGBoost还对特征的缺失值做了处理。XGBoost没有假设缺失值一定进入左子树还是右子树，则是尝试通过枚举所有缺失值在当前节点是进入左子树，还是进入右子树更优来决定一个处理缺失值默认的方向，这样处理起来更加的灵活和合理。

也就是说，上面Xgboost算法流程总结的步骤a),b)和c)会执行2次，第一次假设特征k所有有缺失值的样本都走左子树，第二次假设特征k所有缺失值的样本都走右子树。然后每次都是针对没有缺失值的特征k的样本走上述流程，而不是所有的的样本。

如果是所有的缺失值走右子树，使用上面a),b)和c)即可。如果是所有的样本走左子树，则上面

a)步要变成：

$G_{R} = 0, H_{R} = 0$