李航老師《統計學習方法》及相關資源最全彙總


MLNLP 

機器學習演算法與自然語言處理 

)社群是國內外知名自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景 是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流,特別是初學者同學們的進步。

轉載自 | 位元組AI
李航:畢業於日本京都大學電氣電子工程系,日本東京大學獲得計算機科學博士學位。1990年至2001年就職於日本NEC 公司中央研究所,任研究員,2001年至2012年就職於微軟亞洲研究院,任高階研究員與主任研究員。2012年至2017年就職於華為技術有限公司諾亞方舟實驗室,任首席科學家、主任。現任字節跳動科技有限公司人工智慧實驗室總監,北京大學、南京大學客座教授,IEEE 會士,ACM 傑出科學家,CCF 高階會員。研究方向包括資訊檢索,自然語言處理,統計機器學習,及資料探勘。曾出版過三部學術專著,並在頂級國際學術會議和頂級國際學術期刊上發表過120多篇學術論文,擁有40項授權美國專利。
李航老師編寫的《統計學習方法》全面系統地介紹了統計學習的主要方法,特別是監督學習方法,包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦迴歸與支援向量機、提升方法、em演算法、隱馬爾可夫模型和條件隨機場等。除第1章概論和最後一章總結外,每章介紹一種方法。敘述從具體問題或例項入手,由淺入深,闡明思路,給出必要的數學推導,便於讀者掌握統計學習方法的實質,學會運用。
《統計學習方法》可以說是機器學習的入門寶典,許多機器學習培訓班、網際網路企業的面試、筆試題目,很多都參考這本書。 
今天我們將李航老師經典的機器學習資源,包括《統計學習方法》的ppt和多個版本的實現程式碼進行彙總,並整理後提供下載。
下載方式
1. 點選下方卡片關注 "MLNLP"公眾號
2. 公眾號後臺回覆關鍵詞:lihang

1. 《統計學習方法》(第二版)

《統計學習方法》第一版於 2012年出版,講述了統計機器學習方法,主要是一些常用的監督學習方法。第二版增加了一些常用的無監督學習方法,由此本書涵蓋了傳統統計機器學習方法的主要內容。
第二版課程目錄:
第1篇 監督掌習

第1章統計學習及監督學習概論


第2章感知機


第3章k近鄰法


第4章樸素貝葉斯法


第5章決策樹


第6章邏輯斯諦迴歸與優選熵模型


第7章支援向量機


第8章提升方法


第9章EM演算法及其推廣


第10章隱馬爾可夫模型


第11章條件隨機場


第12章監督學習方法總結


第2篇無監督學習

第13章無監督學習概論


第14章聚類方法


第15章奇異值分解


第16章主成分分析


第17章潛在語義分析


第18章機率潛在語義分析


第19章馬爾可夫鏈蒙特卡羅法


第20章  潛在狄利克雷分配

第21章  PageRank演算法

第22章  無監督學習方法總結
    附錄A  梯度下降法
    附錄B  牛頓法和擬牛頓法
    附錄C  拉格朗日對偶性
    附錄D  矩陣的基本子空間
    附錄E  KL散度的定義和狄利克雷分佈的性質
我們可以看到:《統計學習方法(第2版)》分為監督學習和無監督學習兩篇,全面系統地介紹了統計學習的主要方法。包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦迴歸與大熵模型、支援向量機、提升方法、EM演算法、隱馬爾可夫模型和條件隨機場,以及聚類方法、奇異值分解、主成分分析、潛在語義分析、機率潛在語義分析、馬爾可夫鏈蒙特卡羅法、潛在狄利克雷分配和PageRank演算法等。
《統計學習方法(第2版)》比第一版更全面,而且價格也不高(不到100元還有打折)。這本書是統計機器學習及相關課程的教學參考書,適用於高等院校文字資料探勘、資訊檢索及自然語言處理等專業的大學生、研究生,也可供計算機應用等專業的研發人員參考。
出於版權保護,本文不提供電子書下載,請大家購買正版。

2. 《統計學習方法》的程式碼實現

《統計學習方法》這本書,附件裡並沒有程式碼實現,於是許多研究者復現了裡面演算法的程式碼,並放在github裡分享,這裡介紹幾個比較熱門的《統計學習方法》程式碼實現的專案:

 1)https://github.com/fengdu78/lihang-code (標星:10.2k+)

這個倉庫由黃海廣博士整理,第一版的監督學習方法已經整理完畢(更新完十二章),倉庫的主要內容以Jupyter Notebook格式展現,同時介紹書上的主要演算法及公式推導。

2) https://github.com/WenDesi/lihang_book_algorithm (標星:4.2k+)
這個倉庫不介紹任何機器學習演算法的原理,只是將《統計學習方法》中每一章的演算法用我自己的方式實現一遍。除了李航書上的演算法外,還實現了一些其他機器學習的演算法,這個倉庫用Python程式碼實現。(更新完十二章)
3)https://github.com/Dod-o/Statistical-Learning-Method_Code (標星:3.7k+)
這個倉庫力求每行程式碼都有註釋,重要部分註明公式來源。具體會追求下方這樣的程式碼,學習者可以照著公式看程式,讓程式碼有據可查。(更新完十章)
程式碼截圖,註釋完整且規範
4)https://github.com/SmirkCao/Lihang(標星:3.1k+)
這個倉庫用markdown編寫,前十二章更新完畢,後面部分也更新了大部分,沒有程式碼,但是,公式推導相當全。

3. 《統計學習方法》課件

《統計學習方法》第二版的最新課件是由清華大學深圳研究院的袁春教授製作的。我們一起來看看該課件的主要內容。
所有的課件都是 ppt 格式,總共包含 22 章。正好是《統計學習方法》第 2 版的完整內容。
完整版下載見文末!

資源獲取

本文蒐集了李航老師的《統計學習方法》的相關資源。
以上資源已經打包整理,需要的可以按照以下方式獲取:
1. 點選下方卡片關注 "MLNLP"公眾號
2. 公眾號後臺回覆關鍵詞:lihang
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP社群  機器學習演算法與自然語言處理 ) 是由國內外自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名自然語言處理社群,旗下包括  萬人頂會交流群、AI臻選匯、AI英才匯  以及  AI學術匯  等知名品牌,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章