復旦邱錫鵬教授講述MOSS2研發進展:如何實現世界模型?

演講 | 邱錫鵬教授
整理 | 褚杏娟
去年 ChatGPT 爆火後,國內迅速迎來了“百模大戰”。其中,復旦大學自然語言處理實驗室在去年 2 月率先發布了國內首個類 ChatGPT 的對話式大語言模型 MOSS,開放不到 24 個小時,由於瞬時訪問壓力過大,MOSS 伺服器顯示流量過載而無法訪問。
當時,平臺官網釋出解釋稱,MOSS 還是一個非常不成熟的模型,計算資源不足以支援如此大的訪問量,距離 ChatGPT 還有很長一段路要走。MOSS 的釋出是一個重要的里程碑,打通了大語言模型研發的完整技術路徑,展示了在資源受限的情況下構建高效大語言模型的可能性,還為全球研究者和開發者提供了重要的技術參考和實踐經驗,也提升了國人研發大語言模型的信心。
至今一年多的時間過去,在 6 月 6 日舉行的 CCF 大模型論壇上,復旦大學計算機學院教授邱錫鵬教授坦誠道,當時釋出的 MOSS 技術框架是 GPT-2 時代的架構,比較與後面出現的 LLaMA 等模型架構相比,相對過時,並且訓練資料量和引數量也不夠,導致能力有限。
邱錫鵬教授表示,MOSS 之前的路線,基本上和 OpenAI 差不多,但由於學術界的資料有限,所以團隊更多使用了“AI Feedback”的方法,而非後面大家普遍採用的蒸餾方法。團隊構造了很多自指令,透過憲法 AI 的方式生成的大量資料去訓練模型,以及與真實的人類需求對齊。
在本次論壇上,邱錫鵬教授詳細介紹了 MOSS 最新的研發進展。AI 前線基於邱錫鵬教授演講內容整理了本文,經過不改變原意的編輯,以饗讀者。
下一代 MOSS:世界模型
AlphaGo 雖然取得了非常大的突破,但是它還是屬於上一代的人工智慧(弱人工智慧),即一個模型解決一個任務。現在,以 ChatGPT 為代表的通用人工智慧,是用一個模型來解決非常多的任務,即多工通用性,這是通向 AGI 的模型。
邱錫鵬教授表示,自然語言處理這十年,一直在進行緩慢的正規化遷移。原來自然語言處理的任務非常多,比如分類任務、匹配任務、序列標註任務、閱讀理解任務、句號分析等結構化學習任務。這些任務已經逐漸收斂到了語言模型任務,語言模型任務逐漸統一了自然語言處理的所有任務。
為什麼現在通用模型是從 ChatGPT 或者大語言模型開始?邱錫鵬認為,關鍵的一點是,現在語言某種程度上是人對外界的一種認知,是在自己大腦中的反應。這裡的語言並不是語法本身,而是以語言為載體的人類知識。
人類總結的知識必須要用語言來總結,語言代表了人類智慧對世界的壓縮。現在人工智慧領域 有“壓縮即智慧”的說法,壓縮率越高,智慧程度就越高。某種程度上,語言就是對世界的極致壓縮,只不過這個壓縮是由人類智慧完成的。
構建世界知識可以不經過語言,直接讓模型透過觀察這個世界自己發現世界的規律,但這往往非常困難。
現在的大語言模型具有世界知識,第一步是由人類來完成的。人類觀察世界、總結知識,用語言寫下來。大模型透過模仿學習的方式,把知識學到模型裡面,並且透過語言的方式與世界進行互動。注意的是,與世界互動時不一定限於自然語言。
“我們最終希望達到所謂的‘世界模型’,即讓模型本身和世界進行互動,觀察世界、理解世界,並進行相應的決策。”邱錫鵬教授說道。這也是繼去年第一代 MOSS 釋出之後,團隊設想中的第二代 MOSS。
世界模型的概念提得非常早,它可以迴避掉語言模型的缺點,但它本身到底怎麼實現的路徑並不清晰。邱錫鵬團隊的看法是,即使世界模型,也需要依賴到大語言模型這種基礎模型上。因此,實驗室的努力方向之一就是如何將現有的大語言模型改造成理想中的世界模型。
這一想法也有實踐支援。有很多研究者透過對 GPT-4 做各種實驗,發現 GPT-4 已經具有非常強的時間和空間概念、對現實世界的物體有了解,只不過需要在符號空間把它對映到現實世界,做一個比較好的對齊。
邱錫鵬教授提到,這也是現在比較熱的概念:具身智慧 + 世界模型。
“我們要賦予大語言模型感知能力、增強它的決策規劃能力,以及讓它擁有更好的記憶、更好地使用工具等等,需要其透過不斷和現實世界進行互動來學習。MOSS 2 希望圍繞著這方面去做研究。”邱錫鵬教授表示。
如何實現?
“如果一個模型經常和世界進行互動,現在的模型肯定是不行的。”邱錫鵬教授舉例稱,如何讓互動資料和模型迭代起來,如何更好地使用工具、跨模態和智慧體等都需要解決。
在高效架構搭建方面,團隊在 KV-Cache 上做了很多改進,讓第二代模型具有更好的稀疏性,大幅降低成本,比如長文件的計算速度可以提升 70% 左右,同時保持能力不太下降。
對於底層架構的改進,團隊用 Triton 重寫了 Attention Kernel,讓模型更好地利用硬體加速自身能力。團隊發還布了一個工具 CoLLiE (牧羊犬):一個高效的 LlaMA(羊駝)等大模型微調工具。
CoLLiE 集成了現有的並行策略、高效引數微調方法和高效最佳化器,來加快訓練速度,提高訓練質量,降低訓練開銷。除 MOSS 外, CoLLiE 還支援 InternLM, LLaMA, ChatGLM 等模型。
在 A100 和 RTX-3090 上測試不同批次下使用 Adam 最佳化的吞吐量結果
在 MOSS 2 中,團隊還開發了很多的中文能力。邱錫鵬教授強調,“這個中文能力並不和刷榜一致。現在的榜單和使用者實際需求差異比較大,所以我們組建了上千種的能力點,按照不同能力體系去梳理強化,對使用者的使用感受會非常好。”而這些資料未來可能作為訓練集和評測集公開。
多模態融合
“多模態的能力對於下一代的架構非常重要。”邱錫鵬教授表示。但是目前所謂的多模態,都是多模態進、大模型出,即輸入端是多模態、輸出端是多模態的文字。這並不符合要求具身智慧多模態輸出能力的要求。
那要怎麼做模態之間的融合?團隊提出了“以語言模型為中心,具有任意模態組合的輸入輸出能力”的思路。
實現這樣的架構並不容易,特別是模態之間的任意組合是非常困難的。團隊在去年 5 月份就做這方面的工作,釋出了 SpeechGPT。當時,想到的一個方法是離散化。把連續的聲音、影像、音訊等離散化,好處是可以和文字任意打亂,也可以支援影像等輸出。
以語音為例,語音是一個連續的訊號,透過 Tokenizer 把語音資訊離散化。研發人員可以把語音當成一個新語言,它有自己的詞表,只要把詞表並上去就可以去訓練了。這種方式就是把語音當成一個新語言去訓練。
語音當中,除了 Speech 資訊之外,還具有非常豐富的情感資訊需要保留。團隊提出了語音離散化的工具 Speech Tokenizer,用大量語音資訊來訓練,做了語言資訊和非語言資訊之間的自動化分離,可以只提取語言資訊,也可以提取非語言資訊或者富語言資訊。這樣就可以讓大語言模型直接接受語音進行互動,不需要經過 TTS,也不經過 ASR。大模型如此就具有跨模態的語音互動能力,指令可以跨模態、回覆也可以跨模態,相當靈活。
“最近 GPT-4o 展示了這方面路線的前景。我們沒有做到那麼極致,但是 GPT-4o 展示出來的這種互動能力非常好。它就是語音進、語音出,和 SpeechGPT 大概相似。端到端的方式會讓大語言模型具有很強的互動能力。”邱錫鵬教授說道。
邱錫鵬教授表示,這種想法擴充套件到多模態,所有的連續訊號都可以 Token 化,實現任意 Token 的組合。所有的模態在 Token 後,都可以用自迴歸的形式生成,生成的詞符透過還原器,還原成原來的模態。這就是多模態的擴充套件。
對齊
邱錫鵬教授透露,MOSS 2 模型訓練階段沒有做過多的價值對齊,因為人類價值是非常多樣化的。團隊選擇的是推斷時對齊。推斷時對齊的實現方法非常多,可以利用憲法 AI,告訴它一些準則讓它遵循,也可以用一些對齊好的模型來做。
跨模態對齊現在也有非常多的方法,但邱錫鵬教授強調,現在跨模態對齊只是跨模態任務,對齊還是單模態對齊。
“一些從單模態上可以看出來,它的安全性不好。還有一些所謂的跨模態對齊,從單模態看都沒什麼問題,但是合在一起就有問題。比如自拍一張照片、在高樓上拍一張照片、發一些心情的內容,分開來看沒有問題,但合在一起看就有問題。這就是大家需要關注的,真正要解決的是跨模態安全對齊。”
邱錫鵬團隊還在模型內部做了很多可解釋性方面的工作。可解釋性非常難,團隊就先從小任務上開始,從合成任務,比如下圍棋每一步的執行,去分析 Transformer 內部的特徵。最近,團隊也在小規模語言模型上做了嘗試,發現非常多的特徵能夠預測大模型,比如什麼時候產生幻覺。邱錫鵬教授也舉例道,有些特徵和時間相關,當回覆已有時間的問題時,這些特徵不會啟用,但是問它關於未來的問題,這些特徵就激活了。
自我調控
此外,復旦大學 NLP 實驗室還希望增加 MOSS 的自我調控能力。現在大模型沒有自我調控,都是人為的。“之前 MOSS 部署的時候問題,希望有些場景下它的回答多樣性一點,有些場景不要,當時是人為調一些比較好的引數,達到比較好的平衡。”邱錫鵬教授舉例道。
而人在很多時候都是能夠自我調節的,所以可以讓大模型像人一樣,透過心率、血壓、荷爾蒙釋放等調整它的行為。為此,團隊就提出了一種名為 Hyperparameter Aware Generation(HAG)的正規化。讓大模型能夠感知到自己超參的存在,然後調節這些超參,從而適應各種不同的場景。
結束語
正如 MOSS 團隊當初所言,“中國版 ChatGPT 的誕生還需要中國全體 AI 從業者的努力,也更需要不斷和人互動以提高能力。”很明顯,團隊正在努力實現自己的目標,我們期待 MOSS 2 的正式釋出。

相關文章