almost 3 years ago

SVM的數學較為複雜,這篇僅介紹概念。
我們想從兩群資料中,分出邊界類似如下。


有很多種可能可以分出上面兩群,但是該如何決定邊界呢?


從logistic Regression得到的cost function(單一樣本),
$$
-y \log \frac{1}{1 + \exp{\left(-\theta^T x\right)}} - \left( 1-y \right) \log \left( 1 - \frac{1}{1 + \exp{\left(-\theta^T x \right)}}\right)
$$

如下圖



使用紅線取代logistic function,並且加入regularization。

在此處是regularization係數的倒數。當C很大時,意味著上式的左邊項要趨近於零才能極小化。這決定了SVM的邊界條件,如下

直觀上來說,就是尋找一直線,使得兩群可以藉由這條直線畫分開。而這條線距離最近的點,必須盡可能的越胖越好。尋找這條胖邊界的直線,最鄰近的點稱為支撐向量(support vector)。


參考資料:

  1. Andrew.Ng機器學習
← Logistic Regression(三)Cost function 決策樹 Decision Tree(一)-基本原理 →
 
comments powered by Disqus