復旦大學孫天祥：預訓練語言模型的無梯度最佳化方法

MLNLP

(

機器學習演算法與自然語言處理

)是國內外知名自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景
是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步。

MLNLP學術Talk是MLNLP社群舉辦的學術交流活動，旨在邀請一線青年學者分享最前沿的技術，期待最精彩的思想火花碰撞。本次MLNLP學術Talk特別邀請了復旦大學計算機科學學院博士生孫天祥為我們帶來“預訓練語言模型的無梯度最佳化方法”的主題報告，由南京大學碩士生舒意恆主持。
報告的詳細資訊如下：

1

『講者介紹』

孫天祥，復旦大學計算機科學學院博士生，導師為邱錫鵬教授和黃萱菁教授。他的研究興趣集中於機器學習及其在自然語言處理中的應用，特別是預訓練語言模型的高效微調及推理、多工學習、知識表示學習等。他作為第一作者在ICML, ACL, NAACL, AAAI, COLING等會議發表多篇論文，總被引650餘次。個人主頁：http://txsun1997.github.io/

2

『報告摘要』

隨著預訓練語言模型的規模急劇增大，出於商業考慮及高昂的微調成本，很多大規模預訓練語言模型（如GPT-3）不再開源其引數，而是以提供模型推理API的方式向下遊使用者提供服務，這一場景我們稱為“語言模型即服務（Language-Model-as-a-Service, LMaaS）”。在這一場景下，使用者可以透過構造提示語（Prompt）的方式利用模型服務方提供的推理API來完成各類目標任務。然而，這一方式高度依賴人為構造的提示語，且效能遠低於模型微調。在本次報告中，我將介紹一種針對大規模預訓練語言模型的黑箱最佳化方法（Black-Box Tuning），它可以在僅訪問模型推理API的情況下完成對連續提示語的最佳化，在少樣本學習場景下達到與模型全引數微調可比的效能。相較於目前主流的梯度下降法，黑箱最佳化方法具有最佳化效率高、最佳化資源少的優勢。最後，我將介紹幾個針對LMaaS場景的頗具發展前景的研究方向。

3

『主持人簡介』

舒意恆，南京大學碩士生，師從瞿裕忠教授。研究興趣為問答系統和知識圖譜。在TOIS、ISWC等期刊會議上發表過論文。曾獲國家獎學金、省級優秀畢業生等。

關於我們

MLNLP社群
(
機器學習演算法與自然語言處理
) 是由國內外自然語言處理學者聯合構建的民間學術社群，目前已經發展為國內外知名自然語言處理社群，旗下包括
萬人頂會交流群、AI臻選匯、AI英才匯
以及
AI學術匯
等知名品牌，旨在促進機器學習，自然語言處理學術界、產業界和廣大愛好者之間的進步。

社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。
歡迎大家關注和加入我們。