
MLNLP
(
機器學習演算法與自然語言處理
)社群是國內外知名自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景 是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流,特別是初學者同學們的進步。
(
機器學習演算法與自然語言處理
)社群是國內外知名自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
轉載自 | 深度學習自然語言處理
譯者 | 談修澤
單位 | 東北大學自然語言處理實驗室
原文連結 | https://medium.com/@antoine.simoulin/my-thoughts-about-naacl-2022-c1f36c6da9b8
1
『引言』
NAACL 會議是 ACL 的北美分會,每年舉辦一次,也是 NLP 領域備受關注的頂會之一。NAACL 主要涉及對話、資訊抽取、資訊檢索、語言生成、機器翻譯、多模態、統計機器學習等多個方面。
本篇文章的作者Antoine SIMOULIN協助了NAACL 2022,他結合今年一些論文的情況,就大規模預訓練語言模型的應用、表現、期望等做了概述,總結並思考了當今計算語言學的發展趨勢、不足與挑戰。
2
『原部落格精華內容』
2.1大規模預訓練語言模型數量增多
人們越來越樂觀地看待大規模預訓練語言模型的潛在應用,這使人們的注意力從它們為什麼以及如何工作轉移到如何確保它們在現實世界中可以更好地工作。
對話是語言模型的直接應用。Amazon Alexa AI高階首席科學家Dilek Hakkani-Tur表示,由於公共資料集、語言模型和產品的蓬勃發展,對話研究正處於激動人心的階段。她還概述了剩餘的挑戰:基於知識的回覆生成、開放域對話中產生的事實響應、知識攝取以及收集跨長文件或多源資訊。
2.2 開放對話
透過給定恰當格式的輸入文字並提供相關上下文,模型可以產生符合條件的輸出。這種互動對話正規化可以應用在很多工上,如問答(Sanagavarapu et al. 2022, Qian et al. 2022, You et al. 2022)或摘要總結(Fang et al. 2022, Zhao et al. 2022, Asi et al. 2022)。此外,對話資料可用於學習高效的語言表示 (Zhou et al. 2022)。
2.3 結構融合和常識知識
我們期望大規模預訓練語言模型能夠準確回答事實問題,讓模型擁有如“百科全書”一般的知識。知識圖譜提供了可以與神經網路一起使用的硬結構資訊。可以在命名實體及其關係之間進行顯式通訊(Ayoola et al. 2022),或者將符號和顯式知識提煉成模型引數的隱式編碼知識 (Moiseev et al. 2022)。
我們還希望大規模預訓練語言模型擁有我們所有人擁有的日常知識。例如,我們希望模型不會生成“狗正在從噴氣式飛機上經過”這樣的句子(Seo et al. 2022),或牙刷在空間上應與浴室相關而不是與客廳相關(Henlein and Mehler 2022)。
最後,這些事實取決於時間。如果是在模型訓練後發生的事件,例如新冠肺炎大流行,那麼模型並不會將其考慮在內,否則會導致時間錯位 (Luu et al. 2022)。
2.4 推理
我們希望模型可以校對事實並推斷它們之間的關係。(Sun et al. 2022)提出了JointLK,這是一個在LM(語言模型)和KG(知識圖譜)之間進行多步聯合推理的模型,可以解決問答任務。多跳問答任務也涉及推理,因為它需要推斷多個間接引用來連線詢問(query)中提到的實體。(Kinet al. 2022)提出了一種方法:對這種特定型別的問答使用知識庫。
2.5 超越語言本身
模型不僅僅需要精通語言,它們還需要捕捉語言背後的含義和意圖,捕捉真實世界的一些直觀表述,並對實體和現有的關係進行復雜的推斷。要推動大規模預訓練的語言模型向前發展,關鍵是:僅憑文字可以訓練高效且有意義的模型嗎?
2.6 多模態、多語言、對比學習
我們是否需要在訓練過程中引入其他模態,例如音訊資訊或者影像資訊?事實上,嬰兒在學習時會受到多種型別資訊的刺激。關於多模態學習,(Zhang et al.2022)使用文字和影像混合資訊的對比框架來構建句子編碼。(Wang et al. 2022)提出將文字和影像結合起來,以更好地確認命名實體識別。
2.7 語言學和符號結構的地位
計算語言學見證了大規模預訓練語言模型的廣泛使用,但大規模預訓練語言模型對語言學和符號的假設很少。在激動人心的小組會議上,Chitta Baral、Dilek Hakkani-Tür、Emily Bender和Chris Manning研究了這一觀察可能如何影響未來的研究方向。科研資金通常流向研究神經網路的工作,因此人們對利用語言學進行分析並不感興趣。但神經網路是我們應該追逐的唯一趨勢嗎?
Chris Manning根據經驗觀察到,孩子們可以在沒有任何語言學專業知識的情況下學習語言。我們或許可以從語言理論和概念中汲取靈感,如複合性、系統概括、符號的穩定意義和校對相關。但是,我們應該關注意義的直接表徵,而不是語言本身,因為語言是一種間接表徵。
Emily Bender認為如果沒有語言學,包括結構語言學、形態學、語法學、語義學、語言語用學、兒童語言習得、語言型別學和社會語言學,那麼NLP就不應該作為一個領域而存在。
2.8 文字內涵的定義
在SemEval研討會上,Jacob Andreas討論了語言模型在文字內涵表示方面的潛力,以及是否可以單獨從文字中學習到文字的內涵。會議期間多次提到關於文字的內涵。文字內涵是指世界上的外部參考,人們腦海中的內部思想,還是用語言表達的觀念?更廣泛地說,我們可以期望一個模型在沒有任何形式的社互動動或實際經驗的情況下,只憑借文字訓練就展示人類的行為嗎?
2.9 巨大的能力帶來巨大的責任
隨著大規模預訓練語言模型變得越來越可行和廣泛採用,工程師們對他們的觀念變得更加負責。
2.10 價值敏感設計
Batya Friedman就道德和技術想象力應該如何塑造技術發表了公開演講。除了安全、可靠性、效率或成本等工程標準外,還應考慮其他標準,包括專注和身體完整性。為了使技術和社會結構和諧發展,我們應該衡量大規模語言模型帶來的的影響,例如規模、時間、結構以及應用人類價值觀作為評估系統性能的標準。
2.11 拓寬NLP
眾所周知,自然語言處理是一個快速發展的領域,但這個領域的演變非常多樣化,研究資源也非常集中。科技公司擁有巨大的行動力,使學者難以跟上步伐。此外,研究資源在地理上分佈不均,例如Manuel Montes-y-Gómez展示了墨西哥西班牙語NLP社群研究現狀,該研究不如美式英語先進。
2.12 NLP未來的一些挑戰:組成性、基礎或解釋
儘管大規模預訓練語言模型非常令人興奮,並且我們對它們的可靠性和效率實現任務自動化的能力越來越樂觀,但一些挑戰仍然存在。
一個挑戰是跟蹤模型為什麼產生一個給定的輸出。(Tan 2022)區分了幾種我們能從模型或人類所期望的概念解釋和挑戰。
根據許多研究,模型在系統推廣和顯式組成方面是失敗的,因為它們依賴於虛假的相關性。在這方面,(Weißenhorn et al. 2022)使用複合語義解析器來解決COGS資料集上的成分概括。(Qui et al. 2022) 提出了一種基於上下文無關語法主幹的資料增強方法。
技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
關於我們
