over 2 years ago

假設有四筆行車車速與行車路面資料如下,

坡度 平整度 道路限速 車速

我們想知道,是什麼因素能正確的區分駕駛人的行車車速(or__)。

熵(entropy)

物理學中熵代表的是一系統的混亂程度,其值愈大代表混亂程度愈大。把這個想法搬到資訊上應用,定義
$$
\text{entropy: } S = \sum -P_i \log P_i
$$
其中為該狀態出現的機率。舉例來說,以前面的問題,可以寫成車速在四種不同的道路狀態下,分別有慢慢快快(SSFF)的結果。計算此狀態的混亂程度為,

是我們能得到最大的熵(entropy)。

按照這樣的想法,我們希望的是,當一群樣本(training samples)按照某種特徵作分類後,能最小化其熵值。


以上例說明:

如果按照不同的特徵作分群:

  • 按照道路坡度作分類,

我們有如下子群


系統的熵(entropy)為
$$S_1 \text{(SSF)}+ S_2 \text{(F)} = - \frac{2}{3}\log \frac{2}{3} + 0 = 0.918$$

  • 按照道路平整度作分類,


熵為
$$
S_1\text{(SF)} + S_2\text{(SF)} = - \left( \frac{1}{2} \log \frac{1}{2} + \frac{1}{2} \log \frac{1}{2} \right) + 同左 = 1
$$

  • 按照道路速限分類,


熵值為,
$$
S_1 \text{(SS)}+ S_2 \text{(FF)}= 0 + 0 = 0
$$

按照最小熵值代表系統有最為歸類的解,選擇 3按照道路速限作為決策樹分類依歸。

← 支持向量機-Support Vector Machine(SVM) 決策樹 Decision Tree(二)-應用案例 →
 
comments powered by Disqus