boosting算法是常用的集成方法之一,它通過改變訓(xùn)練樣本的權(quán)重,學(xué)習(xí)多個(gè)分類器,并將這些分類器進(jìn)行線性組合,提高分類的性能。其代表算法為我們本文所要介紹的Adaboost。
1)集成學(xué)習(xí)思想
2)boosting算法原理
3)Adaboost算法原理
4)損失函數(shù)
集成學(xué)習(xí)思想,訓(xùn)練若干個(gè)弱學(xué)習(xí)器,然后通過一定的策略將其結(jié)合起來成為一個(gè)強(qiáng)學(xué)習(xí)器。詳細(xì)可見第二章隨機(jī)森林的第一小節(jié)集成學(xué)習(xí)。集成學(xué)習(xí)可看作有兩個(gè)分支,在隨機(jī)森林中,我們介紹了集成學(xué)習(xí)的一個(gè)分支bagging,下面就來介紹另一個(gè)分支boosting。
我們先觀察這個(gè)boosting的原理圖.
從圖中可以看出,boosting算法的工作機(jī)制是首先從訓(xùn)練集用初始權(quán)重訓(xùn)練出一個(gè)弱學(xué)習(xí)器1,根據(jù)弱學(xué)習(xí)器的學(xué)習(xí)誤差率表現(xiàn)來更新訓(xùn)練樣本的權(quán)重,使得之前弱學(xué)習(xí)器1學(xué)習(xí)誤差率高的訓(xùn)練樣本點(diǎn)的權(quán)重變大,讓它們?cè)谌鯇W(xué)習(xí)器2中得到重視,然后基于調(diào)整權(quán)重后的訓(xùn)練集來訓(xùn)練弱學(xué)習(xí)器2,如此重復(fù)進(jìn)行,知道弱學(xué)習(xí)器數(shù)達(dá)到事先指定的數(shù)目T,最終將這T個(gè)學(xué)習(xí)器通過結(jié)合策略變成強(qiáng)學(xué)習(xí)器。
那Adaboost算法具體又是怎樣的呢?
上一節(jié),我們講到了分類Adaboost的弱學(xué)習(xí)器權(quán)重系數(shù)公式和樣本權(quán)重更新公式,但沒有解釋這個(gè)公式的由來,其實(shí)它可以從Adaboost的損失函數(shù)推導(dǎo)出來。
Adaboost算法還有另一種解釋,即Adaboost是模型為加法模型,學(xué)習(xí)算法為前向分步學(xué)習(xí)算法,損失函數(shù)為指數(shù)函數(shù)的分類問題。
模型為加法模型好理解,我們的最終的強(qiáng)分類器是若干個(gè)弱分類器加權(quán)平均而得到的。前向分步學(xué)習(xí)算法也好理解,我們的算法通過一輪輪的弱學(xué)習(xí)器學(xué)習(xí),利用前一個(gè)弱學(xué)習(xí)器的結(jié)果來更新后一個(gè)弱學(xué)習(xí)器的訓(xùn)練權(quán)重,也就是說,第k-1輪的強(qiáng)學(xué)習(xí)器為:
4.1 Adaboost的優(yōu)點(diǎn):
1)Adaboost作為分類器時(shí),分類精度很高
2)在Adaboost的框架下,可以使用各種回歸分類模型來構(gòu)建弱學(xué)習(xí)器,非常靈活。
3)作為簡(jiǎn)單的二元分類器時(shí),構(gòu)造簡(jiǎn)單,結(jié)果可理解。
4)不容易發(fā)生過擬合
4.2 Adaboost的缺點(diǎn):
1)對(duì)異常樣本敏感,異常樣本在迭代中可能會(huì)獲得較高的權(quán)重,影響最終的強(qiáng)學(xué)習(xí)器的預(yù)測(cè)準(zhǔn)確性。
2)Adaboost迭代次數(shù)也就是弱分類器數(shù)目不太好設(shè)定,可以使用交叉驗(yàn)證來進(jìn)行確定。
3)訓(xùn)練比較耗時(shí),每次重新選擇當(dāng)前分類器最好切分點(diǎn)。
4.3 Adaboost算法應(yīng)用
1)計(jì)算機(jī)視覺:目標(biāo)檢測(cè)
2)預(yù)測(cè)森林火災(zāi)
3)信用評(píng)估
4)人臉檢測(cè)
參考文獻(xiàn)
[1] http://blog.idea2du.com/er-sui-ji-sen-lin/
[2] https://www.cnblogs.com/pinard/p/6133937.html
[3] 李航,《統(tǒng)計(jì)學(xué)習(xí)方法》
[4] https://www.cnblogs.com/ScorpioLu/p/8295990.html
[5] https://blog.csdn.net/haidao2009/article/details/7514787
[6] https://blog.csdn.net/dark_scope/article/details/14103983
(部分文字、圖片來自網(wǎng)絡(luò),如涉及侵權(quán),請(qǐng)及時(shí)與我們聯(lián)系,我們會(huì)在第一時(shí)間刪除或處理侵權(quán)內(nèi)容。電話:4006770986 負(fù)責(zé)人:張明)