almost 3 years ago

在前面提過,logistic Regression的cost function如下形式,
$$
J_\theta = \sum_i^n \left[ y^i\left( -\log h_\theta(x^i) \right)+ (1-y^i) \left( - \right) \log\left( 1-h_\theta(x^i) \right) \right]\tag{1}
$$
此篇簡單說明由來。

由於寫成最小均方形式(LMS)
$$
J_\theta = \frac{1}{2} \sum_i^n \| y^i - h_\theta(x^i) \|^2
$$
在logistic function下會存在有局部最低點,即non-convex(非凸函數)如下圖。


由於存在有很多局部的最小處(local minimum),因此很難使用GD法解到系統的最小解(global minimum)。所以我們使用極大似然定理來估計模型的參數


極大似然定律?

Logistic Regression的輸出是,在給定的條件下,出現為的機率為,出現為的機率為

考慮到每一次抽到的樣本不一定一樣,如果我們抽到的樣本為。針對這一情況的機率為,



如果

  • 似然性(likelihood)使用機率()抽到此樣品的機率
  • 且在的作用下產生樣本的機率是非常大的。

此即最大似然性
$$
max \prod_{i=1}^n h(y^i x^i)
$$

等價於最小化
$$
min \sum -\log h(y^i x^i)
$$
由於可以改寫為

加入regularization,
$$
\frac{\lambda}{2\left( k+1\right)} \sum_{j=0}^k \theta_j ^2
$$
上式改寫成
$$
J_\theta = \sum_i^n \left[ y^i\left( -\log h_\theta(x^i) \right)+ (1-y^i) \left( - \right) \log\left( 1-h_\theta(x^i) \right) \right] + \frac{\lambda}{2\left( k+1\right)} \sum_{j=0}^k \theta_j ^2
$$
此即為logistic regression的cost function

利用Gradient Descent迭代,

矩陣形式,

其中regularizatino factor,learning rate


參考資料

  1. Beader's Blog
  2. Andrew.Ng筆記
  3. Andrew, Ng上課影片
← Logistic Regression(二)應用案例 支持向量機-Support Vector Machine(SVM) →
 
comments powered by Disqus