丁香五月亚洲综合深深爱-老司机导航亚洲精品导航-无码av动漫精品一区二区免费-国产成人啪精品视频免费网-国产婷婷丁香五月缴情成人网

綜合百科

決策樹分析法解析

2024-09-12 08:58:59 來源:互聯(lián)網(wǎng)轉載或整理

決策樹分類是數(shù)據(jù)挖掘中分類分析的一種算法。顧名思義,決策樹是基于“樹”結構來進行決策的,是人類在面臨決策問題時一種很自然的處理機制。例如下圖一個簡單的判別買不買電腦

決策樹分類是數(shù)據(jù)挖掘中分類分析的一種算法。顧名思義,決策樹是基于“樹”結構來進行決策的,是人類在面臨決策問題時一種很自然的處理機制。例如下圖一個簡單的判別買不買電腦的決策樹:





下圖是一個測試數(shù)據(jù)集,我們以此數(shù)據(jù)集為例,來看下如何生成一棵決策樹。


決策樹分類的主要任務是要確定各個類別的決策區(qū)域,或者說,確定不同類別之間的邊界。在決策樹分類模型中,不同類別之間的邊界通過一個樹狀結構來表示。


通過以上分析,我們可以得出以下幾點:

因此,決策樹建樹算法就是: 選擇樹根的過程



第一步,選擇屬性作為樹根

比較流行的屬性選擇方法: 信息增益

信息增益最大的屬性被認為是最好的樹根

在選擇屬性之前,我們先來了解一個概念: 熵 什么是熵?什么是信息?如何度量他們?

熵 用來表示不確定性的大小

信息 用來消除不確定性

實際上,給定訓練集S,信息增益代表的是在不考慮任何輸入變量的情況下確定S中任一樣本所屬類別需要的信息(以消除不確定性)與考慮了某一輸入變量X后確定S中任一樣本所屬類別需要的信息之間的差。差越大,說明引入輸入變量X后,消除的不確定性,該變量對分類所起的作用就越大,因此被稱為是好的分裂變量。換句話說,要確定S中任一樣本所屬類別,我們希望所需要的信息越少越好,而引入輸入變量X能夠減少分類所需要的信息,因此說輸入變量X為分類這個數(shù)據(jù)挖掘任務帶來了信息增益。信息增益越大,說明輸入變量X越重要,因此應該被認為是好的分裂變量而優(yōu)先選擇。

因此,計算信息增益的總的思路是:

1) 首先計算不考慮任何輸入變量的情況下要確定S中任一樣本所屬類別需要的熵Entropy(S);

2) 計算引入每個輸入變量X后要確定S中任一樣本所屬類別需要的熵Entropy (X,S);

3) 計算二者的差,Entropy (S) - Entropy (X, S),此即為變量X所能帶來的信息(增益),記為Gain(X,S)。

結合上面對于熵的解釋的文章里,我們能得出求熵的公式:


下圖很形象的解釋了熵代表的含義。


我們還以上面的一組數(shù)據(jù)來分析,信息增益具體應該怎么算


根據(jù)上面的討論,我們先用公式計算不考慮任何輸入屬性時,要確定訓練集S中任一樣本所屬類別需要的熵。

此例子中,目標屬性即buys_computer,有2個不同的取值,yes和no,因此有2個不同的類別(m=2)。設P對應buys_computer=yes的情況,N對應buys_computer=no的情況,則P有9個樣本,N有5個樣本。所以,總的熵就是:


即,E(p,n) = E(9,5) = 0.940

然后我們來求屬性age的熵,age有三個屬性,樣本個數(shù)分別為5,4,5,所以屬性age的熵就是:


最后,我們可以求出屬性age的信息增益為:


同樣的,我們可以分別求出income,student和credit_rating的信息增益


finally,我們可以得出屬性age的信息增益最大,所以,應該用屬性age作為樹根。


確定好樹根之后,下一步我們還要按照剛才的步驟來確定下一個節(jié)點的左右子樹分別用哪個屬性作為樹根,直到最后得出完整的決策樹。

雖然決策樹分類算法可以快速的預測分類,但是也會有過度擬合(Overfitting)的問題。

有些生成的決策樹完全服從于訓練集,太循規(guī)蹈矩,以至于生成了太多的分支,某些分支可能是一些特殊情況,出現(xiàn)的次數(shù)很少,不具有代表性,更有甚者僅在訓練集中出現(xiàn),導致模型的準確性很低。

通常采用剪枝的方式來克服 overfitting,剪枝有兩種方法:

先剪:構造樹的過程中進行修剪。不符合條件的分支則不建。

后剪: 整個樹生成之后進行修剪


本文標簽: 決策樹分析法

其他文章

  • 阜新銀行存款安全嗎 阜新銀行安全嗎
  • 錳酸鋰上市龍頭 錳酸鋰股票的簡要分析
  • 海南礦業(yè)為什么不漲 海南礦業(yè)股票為什么不漲
  • 中華保險是大公司嗎 中華保險公司規(guī)模怎么樣
  • 590002分過紅嗎 中郵核心增長股票基金有分過紅嗎
  • 商貸轉公積金麻煩嗎 商轉公的流程有哪些呢
  • 完全不懂基金怎么入門 基金入門的方法
  • 豬肉行業(yè)龍頭股一覽表 豬肉行業(yè)股票的簡要分析
  • 人民幣的單位換算 人民幣有什么單位
  • 央企有哪些 央企的主要內(nèi)容
  • 經(jīng)典手機HTC826雙網(wǎng)版評測(826詳細參數(shù))
  • 好看的完結玄幻小說(47本完本書單玄幻篇)
  • 交管12123申請電動車號牌流程(電動自行車網(wǎng)上登記上牌步驟)
  • 奧斯卡電影歷屆獲獎名單(歷屆奧斯卡最佳影片)
  • 飛天茅臺53度價格2022市場價(2022茅臺今日回收價格一覽表)
  • 宏碁Acer非凡S3怎么樣 值得買嗎(S3筆記本的優(yōu)點和缺點介紹)
  • 臭蟲怎么消滅(5個消滅臭蟲的小方法)
  • 刁愛青尸體被煮熟切成2000多片
  • g20峰會2022在哪舉辦(G20峰會順利召開)
  • 韓國女團有哪些(韓國十大頂級女團)
  • 黔ICP備19002813號

    主站蜘蛛池模板: 久久精品国产2020| 国产免费牲交视频| 在教室伦流澡到高潮hnp视频| 天堂中文字幕一区| 日韩午夜一区二区三区免费在线| 亚洲视频一区在线看| 欧美 日韩 中文字幕 一区| 日韩一区二区三区视频免费在线观看 | 久久精品噜噜噜成人| 大战熟女丰满人妻av| 亚洲中文字幕无码爆乳| 亚洲爆乳aaa无码专区| 国产乱人伦精品一区二区在线观看| 少妇高潮喷水惨叫久久久久电影 | 国产 视频 一区 二区| 精品无人区乱码一区二区| 一区二区三区(欧美激情)| 欧美一区二区日韩在线| 人人爽人人爽人人片a| 亚洲男男无套gv大学生| 午夜精品视频在线无码| 久久99精品国产99久久6男男| 午夜精品一区二区三区在线观看| 久久久精品2019免费观看| 夜夜爽妓女8888888视频| 一区二区三区鲁丝不卡| 日韩国产成人无码av毛片 | 小??戳进?无遮视频| 成人做爰视频www网站| 国产伦精品一区| 久久av粉嫩粉嫩一区二区| 熟女乱一区二区| 国产,日韩,欧美一区二区| 亚洲综合一区国产精品| 国产现实无码av| 亚洲中文字幕日产无码成人片| 日本熟妇大屁股人妻| 亚洲欧洲日产国码aⅴ| 曰韩精品无码一区二区三区| 欧美小视频一区二区| 影视先锋av资源噜噜|