机器学习导论8 集成学习 (没上完)

分类:Machine Learning, 发布于:2019-04-24 14:40:28, 更新于:2019-04-24 15:47:47。 评论

集成学习也称为委员会系统。

8.1 个体与集成

集成学习(ensemble learning)通过构建并结合多个学习器来提升性能。

集成个体应该好而不同。

考虑二分类问题,假设基分类器的错误率为 $$P(h_i(\boldsymbol{x}) \neq f(\boldsymbol{x})) = \epsilon,$$

假设集成通过简单投票法结合$T$个分类器,若有超过半数分类器正确则分类就正确,那么 $$H(\boldsymbol{x}) = \text{sign} \left(\sum h_i(\boldsymbol{x}) \right).$$

假设基分类器的错误率相互独立,则由Hoeffdin不等式可得集成的错误率为 $$P(H(\boldsymbol{x}) \neq f(\boldsymbol{x})) \leqslant \exp\left\lbrace -\dfrac{1}{2} T (1 - 2\epsilon)^2 \right\rbrace.$$

上式显示,在一定条件下,随着集成分类器数目的增加,集成的错误率将指数级下降,最终趋向于$0$

但上面的分析有一个关键假设:基学习器的误差相互独立。然而现实任务中个体学习器都是为了解决同一个问题训练出来的,不可能独立。个体学习器的“准确性”和“多样性”存在trade-off的冲突,如何产生“好而不同”的个体学习器是集成学习研究的核心。

集成学习大致可以分为两类:

  • Boosting (additive model):
    • 个体学习器存在强依赖关系8 1
    • 串行生成(每次训练一个分类器,然后根据分类器在训练集上的性能调整训练集上样本的分布)
    • 每次调整训练数据的样本分布
    • Boosting族算法最著名的代表是AdaBoost

评论