清華姚班校友等揭Transformer致命缺陷,OpenAI科學家緊急回應:學術界節奏太慢

點選下方卡片,關注“CVer”公眾號

AI/CV重磅乾貨,第一時間送達

新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球可以獲得最新頂會/頂刊上的論文ideaCV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:新智元 |編輯:編輯部 HYZs

【導讀】一篇報道,在AI圈掀起軒然大波。文中引用了近2年前的論文直擊大模型死穴——Transformer觸及天花板,卻引來OpenAI研究科學家的緊急回應。
誰能想到,一篇於2023年發表的LLM論文,竟然在一年半之後又「火」了。
聊天機器人開始面臨根本性的限制
論文中,來自Ai2、華盛頓大學等機構研究人員稱,Transformer在組合能力上存在限制。
以基本的乘法為例,讓「GPT-4」計算兩個三位數的乘積,最初的正確率僅有59%。當乘數增加到4位數時,準確率直接暴降到4%。
論文地址:https://arxiv.org/abs/2305.18654
與此同時,Quanta Magazined還在報道中引用了曾是哥大博士的彭炳輝於2024發表的論文,去論證Transformer存在著根本性的限制。
論文地址:https://arxiv.org/abs/2402.08164
論文地址:https://arxiv.org/abs/2412.02975
一作彭炳輝和導師同樣驗證了,由於Transformer缺乏組合能力,由此導致LLM產生了幻覺。
他們指出,「如果一個大模型只有單層Transformer結構,總引數量小於域的大小,AI便無法解決組合任務」。
實際上,這些研究本身並沒有什麼,但QM卻稱之為「最近」。評論區瞬間被網友們吐槽淹沒了。
OpenAI研究員Noam Brown直言,「學術界研究節奏相對較慢,而LLM領域大發展速度遠超其慣常步調」。
DeepMind研究科學家對此進行了反駁,我們在4-5位的算數運算上仍未達到完美的水平。
這些論文中的觀點,如今都還成立嗎?
四位數相乘,GPT-4正確率4%
艾倫人工智慧研究所的科學家Nouha Dziri及其團隊,對以ChatGPT為代表LLM進行測試,讓它們嘗試解決這類邏輯難題,模型的表現並不理想。
Dziri指出,當面對複雜任務時,LLM很難依據訓練資料之外的資訊進行推理,只能做近似推斷,極有可能出錯。
需要整合多個子問題的答案,才能得出最終結果的任務被稱為組合性任務。
Nouha Dziri團隊研究發現,大部分LLM僅依靠預測序列中的下一個詞進行訓練,在應對組合性推理任務時,存在根本性缺陷。
多數LLM採用的Transformer架構,在處理這類問題時,會受到數學層面的限制。
儘管科學家在突破Transformer的限制方面取得了一定成果,但這些成果越來越像是權宜之計。
這類模型存在基礎計算瓶頸,或許是時候考慮轉變研究思路了。
「這項研究的真正目的,是幫助學界判斷,Transformer是否是適合通用學習的架構。」紐約大學的機器學習專家Andrew Wilson說道。
OpenAI的o1和GPT-4、谷歌的Gemini、Anthropic的Claude,是在幾乎所有能獲取到的網際網路資料上進行訓練的。
LLM掌握了語法,積累了大量的語義知識。這些經過預訓練的模型,還能進一步訓練或最佳化,完成更復雜的任務,像總結複雜文件,生成遊戲程式碼。
它強大到彷彿真的會推理,但同時也在一些方面表現得極差,笨得讓人吃驚。
以基礎乘法運算為例,像ChatGPT和GPT-4這樣常見的LLM表現糟糕。
2023年初,Dziri團隊對GPT-4進行測試,讓它計算兩個三位數相乘,最初的正確率僅為59%。當計算兩個四位數相乘時,準確率更是急劇下降,只剩下4%。
團隊還測試了LLM在謎題任務上的表現,結果同樣不理想。
當謎題是兩座房子,每座房子對應兩個屬性時,GPT-4還能每次都答對。但當謎題難度升級為四座房子,每座房子對應四個屬性時,正確率就銳減至10%。
《國際生活》上的原始謎題版本,也就是五座房子,每座房子對應五個屬性的情況,GPT-4的正確率直接歸零。
Dziri認為「它只是在模仿自己見過的東西,並沒有真正理解。」
LLM存在難以突破的限制
與此同時,另一個研究團隊採用了不同的方法,來理解LLM為什麼在處理組合性任務時會遇到困難。
當時,正在哥大讀博的彭炳輝與導師Christos Papadimitriou等人一起研究LLM為什麼會產生幻覺,生成與事實不符的錯誤資訊。
下面三張圖中的例子,分別展示了LLM在空間構成、時間構成和關係構成上產生的幻覺。
左右滑動檢視
對此,團隊懷疑原因在於Transformer缺乏「組合能力」。
假設給LLM輸入兩條資訊:一是弗雷德里克·肖邦的父親是尼古拉·肖邦,二是尼古拉·肖邦出生於1771年4月15日。然後問它:弗雷德里克·肖邦的父親的出生日期是什麼?
這時,LLM需要把這兩條資訊整合起來,才能作答。
實際上,它要解答的是一個巢狀問題,先找出弗雷德里克·肖邦的父親是誰,再回答這個人的出生日期。
要是LLM給出的答案不對,出現了所謂的「幻覺」,很可能就是因為它沒能成功完成這種組合性任務。
為了驗證這個猜想,團隊首先研究了一種簡單Transformer的特性。
這種模型只有一層,在預測下一個單詞時,會根據句子中單詞的順序和位置來判斷。現代LLM通常包含多層這樣的結構。
團隊找到了Transformer層的複雜程度和域大小(也就是表示問題所需的位元數)之間的聯絡。
透過研究這個簡單模型,他們證明了一個數學限制條件。
如果單層Transformer的總引數數量小於域的大小,從理論上來說,Transformer就解決不了組合性任務。
僅有一個Transformer層的LLM,在數學層面存在明顯的侷限性。
雖說這是一個很有說服力的理論成果,但它的實際影響還不明確,因為現代LLM要複雜得多。
於是,團隊換了一種方法來研究更復雜的Transformer的能力。他們運用計算複雜性理論,透過分析解決問題所需的時間、記憶體等資源,來探究問題的本質。
他們藉助一個著名的猜想證實,即使是多層Transformer在解決複雜的組合性問題時,計算能力也存在限制。
2024年12月,彭炳輝和加州大學伯克利分校的研究員發表了一項證明。這次,他們拋開計算複雜性理論的猜想,直接證實了多層Transformer確實無法解決某些複雜的組合性任務。
彭炳輝說:「模型規模增大後,確實能解決更具挑戰性的問題。但要是同時擴大問題的規模,就算模型變得更大,解決起來照樣棘手。」
這充分表明,Transformer架構存在著難以逾越的侷限性。
但這並不意味著LLM的終結。
紐約大學的Wilson指出,雖然存在這些侷限性,研究人員已經開始改進Transformer,幫助它們更好地處理包括算術在內的各類問題。
馬里蘭大學的計算機科學家Tom Goldstein和他的同事在給Transformer輸入數字時做了些調整,他們在每個數字裡嵌入額外的位置資訊,再訓練加法運算模型。
經過20位數訓練的模型,在進行100位數加法時,準確率能穩定達到98%;而沒有嵌入額外位置資訊的模型,準確率只有3%左右。
這表明,也許有一些基礎的改進方法可以採用,這樣就能在這些問題上取得重大進展,而無需重新設計整個架構。
除了擴大模型規模,還有一種克服LLM侷限性的辦法,就是在提示中給出問題的逐步解決步驟,即思維鏈提示。
研究顯示,這種方法能讓GPT-4這類LLM,具備解決更多相關任務的能力。
斯坦福大學博士生Haotian Ye表示:「我們很好奇,為什麼它這麼有效,能帶來這麼多突破。」
他在北大讀本科時,就曾對比過Transformer在使用思維鏈提示與否時的表現。
他們藉助計算機科學的另一分支——電路複雜性理論進行論證,解釋了思維鏈提示是如何把一個大問題拆解成一系列小問題,進而讓Transformer處理更復雜的組合性任務。
不過Haotian Ye也提醒,這並不意味著模型用了思維鏈提示,就真能解決這些難題。
這項研究關注的是理論能力,而模型的訓練方式,決定了它們能在多大程度上發揮出這一理論上限。
LLM本質上是在匹配以前見過的模式,它們的能力受到數學限制。嵌入技巧和思維鏈提示,只是拓展了它們處理更復雜模式匹配的能力。
從數學原理來看,總能找到一些組合性任務,其複雜程度超出了給定系統的處理能力。
Dziri表示:「我們必須徹底弄清楚模型內部是如何運作的。要是能搞明白它們執行任務和推理的方式,或許就能對它們進行最佳化改進。要是不清楚,那就真的很難開展任何工作了。」
作者介紹
彭炳輝,現任加州大學伯克利分校西蒙斯研究所的博士後研究員。此前,在哥倫比亞大學獲得博士學位,導師是Xi Chen和Christos Papadimitriou。並在清華大學姚班獲得學士學位。
彭炳輝的研究領域廣泛,涉及機器學習理論、博弈論以及理論計算機科學。最近,他尤其關注計算理論與AI之間的相互作用。 
參考資料:
https://x.com/polynoamial/status/1888467178879627546
https://x.com/QuantaMagazine/status/1888269583800225958

何愷明在MIT授課的課件PPT下載


在CVer公眾號後臺回覆:何愷明,即可下載本課程的所有566頁課件PPT!趕緊學起來!

ECCV 2024 論文和程式碼下載


在CVer公眾號後臺回覆:ECCV2024,即可下載ECCV 2024論文和程式碼開源的論文合集

CVPR 2024 論文和程式碼下載


在CVer公眾號後臺回覆:CVPR2024,即可下載CVPR 2024論文和程式碼開源的論文合集
Mamba、多模態和擴散模型交流群成立
掃描下方二維碼,或者新增微訊號:CVer2233,即可新增CVer小助手微信,便可申請加入CVer-Mamba、多模態學習或者擴散模型微信交流群。另外其他垂直方向已涵蓋:目標檢測、影像分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影像、行為識別、影片理解、影像融合、影像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者擴散模型+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看


相關文章