樸素貝葉斯法是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類方法。在機(jī)器學(xué)習(xí)中,樸素貝葉斯和其他大多數(shù)的分類算法都不同,比如決策樹、KNN、支持向量機(jī)等,他們都是判別方法,直接學(xué)習(xí)出特征輸出Y和特征輸出X之間的關(guān)系,Y=f(X)或者P(Y|X)。但樸素貝葉斯是生成方法,是直接找出特征輸出Y和特征X的聯(lián)合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出。
1)樸素貝葉斯法的學(xué)習(xí)與分類
2)樸素貝葉斯法的參數(shù)估計(jì)
1.1后驗(yàn)概率最大化的含義[1]
樸素貝葉斯法將實(shí)例分到后驗(yàn)概率最大的類中,這等價(jià)于期望風(fēng)險(xiǎn)最小化,假設(shè)選擇0-1損失函數(shù):
這樣一來(lái),根據(jù)期望風(fēng)險(xiǎn)最小化準(zhǔn)則就得到了后驗(yàn)概率最大準(zhǔn)則:
1.2極大似然估計(jì)[1]
1.3學(xué)習(xí)與分類算法
使用極大似然估計(jì)可能會(huì)出現(xiàn)所要估計(jì)的概率值為0的情況,這時(shí)會(huì)影響到后驗(yàn)概率的計(jì)算結(jié)果,使分類產(chǎn)生偏差,解決這一問題的方法是采用貝葉斯估計(jì),它與樸素貝葉斯估計(jì)有什么不同呢
3 樸素貝葉斯算法總結(jié)
樸素貝葉斯是典型的生成學(xué)習(xí)方法,是直接找出特征輸出Y和特征X的聯(lián)合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出,對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,哪個(gè)最大,就判定該待分項(xiàng)屬于哪個(gè)類。
3.1樸素貝葉斯的主要優(yōu)點(diǎn):
1)樸素貝葉斯模型有穩(wěn)定的分類效率
2)樸素貝葉斯很直觀,計(jì)算量也不大
3)對(duì)小樣本數(shù)據(jù)表現(xiàn)很好,能處理多分類任務(wù)。
4)對(duì)缺失數(shù)據(jù)不敏感,算法也比較簡(jiǎn)單,常用于文本分類。
3.2樸素貝葉斯的主要缺點(diǎn):
1)理論上,樸素貝葉斯模型與其他分類方法相比具有最小的誤差率。但是實(shí)際上并非總是如此,這是因?yàn)闃闼刎惾~斯模型給定輸出類別的情況下,假設(shè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,在屬性個(gè)數(shù)比較多或者屬性之間相關(guān)性較大時(shí),分類效果不好。而在屬性相關(guān)性較小時(shí),樸素貝葉斯性能最為良好
2)需要知道先驗(yàn)概率,且先驗(yàn)概率很多時(shí)候取決于假設(shè),假設(shè)的模型可以有很多種,因此在某些時(shí)候會(huì)由于假設(shè)的先驗(yàn)?zāi)P偷脑驅(qū)е骂A(yù)測(cè)效果不佳。
3)由于我們是通過(guò)先驗(yàn)和數(shù)據(jù)來(lái)決定后驗(yàn)的概率從而決定分類,所以分類決策存在一定的錯(cuò)誤率。
4)對(duì)輸入數(shù)據(jù)的表達(dá)形式很敏感。
1)垃圾郵件分類
2)病癥判斷,即病人分類
3)檢測(cè)某社區(qū)平臺(tái)不真實(shí)賬號(hào)
4)新聞分類
參考文獻(xiàn)
[1]李航,《統(tǒng)計(jì)學(xué)習(xí)方法》
[2]https://www.cnblogs.com/lliuye/p/9178090.html
[3]http://bbs.elecfans.com/jishu_1659159_1_1.html
[4] https://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html
(部分文字、圖片來(lái)自網(wǎng)絡(luò),如涉及侵權(quán),請(qǐng)及時(shí)與我們聯(lián)系,我們會(huì)在第一時(shí)間刪除或處理侵權(quán)內(nèi)容。電話:4006770986 負(fù)責(zé)人:張明)