over 1 year ago

最近一個月由於工作上需要,整理了g0v的公司資料模仿(COPY?)了公司關係圖的作法。在公司架一個類似的網頁,因為是第一次寫完整(?)的網站,放在這邊紀錄(慶祝++)一下!

多做了一點東西是把公司內部的資料放進來,換句話說,能看見某公司於本行的存放款狀況。這是比較新奇的地方~很可惜最後這個案子還是被老大砍頭了,因為所在的小組是分析單位,後續沒有人可以接手作系統上的維運,老大也怕老闆幫我們單位亂賣...總總因素暫時放棄,是有點可惜啦。不過自己學到不少東西還是令人開心的。

註記一下這邊有練習到的東西

  1. 超怪毛微軟啟用服務要用nssm
  2. d3js真難駕馭, c3js方便但是東西好少
  3. nodejs值得深入玩味
  4. angularJs亂抄一通完全不懂Orz

完整的程式碼可以看這裡
報告完畢~

 
over 1 year ago

Effective Python 中文版讀書筆記...
放在這邊備忘一下! 覺得放在Github比較好...以後會盡量學著熟悉開源生態

好久沒更新了,上來這邊衝個人氣...

 
almost 2 years ago

神經網路的數學較為複雜,跟著推導一遍後,以後也比較能掌握實做細節部份。主要是參考google brain的大神Denny Britz的部落格。如果有興趣強烈推薦看原版的,這裡是自己用弱弱的方式來重新理解Neural Network。

以下分成幾個部份

  • 問題描述
  • 神經網路架構與前向傳遞
  • Loss 函數對變數的微分
  • 三層的基本神經網路各自的微分式
  • 程式實做
Read on →
 
almost 2 years ago

前一篇介紹TextRank算法中,除了可提取一段短句的關鍵字之外,相同的原理也可應用於一篇文章,作關鍵句子的抽取,成為一篇文章的簡單摘要。作法如下,

Read on →
 
almost 2 years ago

賣鮮花的漂亮女孩在買鮮花

對於上面一段話來說,要如何提取關鍵字?

Read on →
 
over 2 years ago

輸入中文搜尋後,我們預期這個搜尋引擎能為我們找到關聯性最高的網頁,並按照得分順序作排序。這裡所謂的得分,可能使用幾種方式來計算,這篇討論的重點在此。

Read on →
 
over 2 years ago

爬梳好的資料,已經結構化的儲存在資料庫裡。如果我們輸入中文搜尋想正確找到中文搜尋出現在同一網頁下的url與不同位置wordlocation和對應的wordid,在sql語法下可寫成

select w0.urlid,w0.location,w1.location
from wordlocation w0, wordlocation w1
where w0.wordid=3400
and w0.urlid=w1.urlid 
and w1.wordid=2        

即能找到對應結果。

urlid location location
31 20 11
31 20 119
13 102 87
13 102 107
$$\vdots$$ $$\vdots$$ $$\vdots$$
Read on →
 
over 2 years ago

在電腦上簡單的輸入幾個關鍵字,就能跑出相關網頁連結的排序結果,這是搜尋引擎的工作。這幾篇相關文章會討論如何從無到有,模仿google,實做一個陽春版的搜尋引擎。包含以下工作,

  • 網頁爬梳(Crawler)

    • 關聯式資料庫結構(SQLite Schema)
    • 中文分詞(Jieba)
    • 正規表示法(Regular Expression)
  • 網頁排序(searcher)

    • 字頻(words frequency)
    • 字距(word location)
    • 網頁連結度(inbound linking)
    • 網頁排名(PageRank)
    • 標題連結(link text)
Read on →
 
over 2 years ago

從RSS feed拿到的網站資料中,先作關鍵字的簡易統計(怎麼作的,改天…再說)這篇的重點是分類

"China" "kids" "music" "Yahoo"
Gothamist 0 3 3 0
GigaOM 6 0 0 2
Quick Online Tips 0 2 2 22

把網站出現的字頻當作是該網站的特徵,我們能針對不同網站的特徵,定義pearson相似度,或相似距離。距離愈近先組成一群(團結力量大),然後新群和舊群比較,距離最近的再度結黨營私…如此逐級延伸(維基百科有詳細說明)形成的樹狀圖(dendrogram)稱為層級分類。下面這兩張圖說的滿清楚的(也是來自wiki)

Read on →
 
over 2 years ago

延續之前實作(二)的問題,如果使用以用戶為基礎的相似度,來作判斷會出現如簡介所說

  • 表單上大部分的用戶欄位是空的
  • 必須用戶同時上線,才能計算用戶的相似性

以商品為基礎

對Toby來說的商品推薦,利用皮爾森相似度計算每個商品之間的相似性。然後針對不同評分給予商品分數,

Read on →