復旦大學孫天祥:預訓練語言模型的無梯度最佳化方法


MLNLP

(


機器學習演算法與自然語言處理

)是國內外知名自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。



社群的願景

是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步。
MLNLP學術TalkMLNLP社群舉辦的學術交流活動,旨在邀請一線青年學者分享最前沿的技術,期待最精彩的思想火花碰撞。本次MLNLP學術Talk特別邀請了復旦大學計算機科學學院博士生孫天祥為我們帶來“預訓練語言模型的無梯度最佳化方法”的主題報告,由南京大學碩士生舒意恆主持。
報告的詳細資訊如下:

1

『講者介紹』
孫天祥,復旦大學計算機科學學院博士生,導師為邱錫鵬教授和黃萱菁教授。他的研究興趣集中於機器學習及其在自然語言處理中的應用,特別是預訓練語言模型的高效微調及推理、多工學習、知識表示學習等。他作為第一作者在ICML, ACL, NAACL, AAAI, COLING等會議發表多篇論文,總被引650餘次。個人主頁:http://txsun1997.github.io/


2

『報告摘要』
隨著預訓練語言模型的規模急劇增大,出於商業考慮及高昂的微調成本,很多大規模預訓練語言模型(如GPT-3)不再開源其引數,而是以提供模型推理API的方式向下遊使用者提供服務,這一場景我們稱為“語言模型即服務(Language-Model-as-a-Service, LMaaS)”。在這一場景下,使用者可以透過構造提示語(Prompt)的方式利用模型服務方提供的推理API來完成各類目標任務。然而,這一方式高度依賴人為構造的提示語,且效能遠低於模型微調。在本次報告中,我將介紹一種針對大規模預訓練語言模型的黑箱最佳化方法(Black-Box Tuning),它可以在僅訪問模型推理API的情況下完成對連續提示語的最佳化,在少樣本學習場景下達到與模型全引數微調可比的效能。相較於目前主流的梯度下降法,黑箱最佳化方法具有最佳化效率高、最佳化資源少的優勢。最後,我將介紹幾個針對LMaaS場景的頗具發展前景的研究方向。

3

『主持人簡介』
舒意恆,南京大學碩士生,師從瞿裕忠教授。研究興趣為問答系統和知識圖譜。在TOIS、ISWC等期刊會議上發表過論文。曾獲國家獎學金、省級優秀畢業生等。

關於我們


MLNLP社群 

(
機器學習演算法與自然語言處理

) 是由國內外自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名自然語言處理社群,旗下包括 
萬人頂會交流群、AI臻選匯、AI英才匯 

以及 
AI學術匯 

等知名品牌,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。
歡迎大家關注和加入我們。

相關文章