
作者丨王悅
編輯丨陳彩嫻
Manus 的出現將智慧體推入當下 AI 格局的前列,使得這個過去略抽象的概念變得具體可感知。然而行業中也不乏對 Manus 的爭議,認為 Manus 沒有底層技術創新力,更多的是將現有技術融合從而在工程上創新,即所謂的“套殼”。
雖說工程創新也是一種護城河,但“套殼”的說法也並非完全沒道理。近幾年的時間裡,學界和業界關於 Agent 的技術和實踐成果頗豐。在 AI 智慧體推理與決策研討會(AIR 2025)上,來自倫敦大學學院、新加坡南洋理工大學、Weco AI、Google DeepMind、Meta、華為、阿里等多位學術界和工業界的研究人員圍繞強化學習、推理決策、AI 智慧體展開討論。
新加坡南洋理工大學的安波教授揭示了從基於強化學習的智慧體到由大型語言模型驅動的智慧體的演變,分享了團隊多項關於 Agent 的工作進展,其中 Q* 演算法以多步驟推理作為審慎規劃,在學習 Q 值模型的過程中,需要經歷離線強化學習以交替更新 Q 值標籤並擬合 QVM、使用表現最佳的回滾軌跡的獎勵、使用與更強大 LLM 一起完成的軌跡的獎勵三個關鍵步驟。
初創公司 Weco Al 的 CTO Yuxiang 闡述了在解空間中尋找智慧的一些時間,介紹了由人工智慧驅動的 Agent—— AIDE,能夠處理完整的機器和工程任務。如果將機器學習和工程視為一個程式碼最佳化問題,那麼它就會將整個搜尋或程式碼最佳化的過程形式化為在解空間中的樹搜尋。在這個被形式化的解空間中,AIDE 是一個任何大語言模型都可以編寫的程式碼空間。
來自倫敦大學學院的宋研從 DeepSeek 切入,討論了強化學習在大型語言模型推理中的作用,並指出 DS 又一個“Aha時刻”,即在強化學習階段,大型語言模型學會了自我糾正,這可能是由於其基礎模型已經具備自我糾正的能力。基於此進一步發現,當 Agent 使用某些關鍵詞時,它們會進行各種回溯、自我報告和複雜推理。
谷歌 Deepmind 研究員馮熙棟初步闡述了將強化學習的組成部分用自然語言描述出來的理念,將會把所有強化學習的概念重新定義為自然語言表示的內容,嘗試將策略、值函式、貝爾曼方程、蒙特卡洛取樣、時間差分學習以及策略改進運算子等,對映到它們的自然語言對應中。
AIR2025 由倫敦大學學院汪軍、Meta GenAI 田淵棟等教授聯合主辦,致力於推動智慧系統的發展,使其能夠自主、適應性強且負責任地執行(會議詳情及註冊可訪問官網:https://ai-agent-reasoning.com)。本次會議特別鳴謝來自加州大學伯克利分校的博士後研究員顧尚定。
AI 科技評論擷取會議部分精彩內進行編譯,以下為核心內容的演講實錄:
新加坡南洋理工大學的安波教授做了主題為《From RL-based to LLM-powered Agents》的演講,揭示了近年來從基於強化學習的智慧體到由大型語言模型驅動的智慧體的演變,分享了多項關於 Agent 的工作進展。

去年,我們做了一些工作,結合了一個臨時模型,以提高其在某些基準問題中的效能。我們的方法是嘗試從與環境的互動中學習策略,因此它具有很強的落地能力,所以我想我們在這裡嘗試結合先驗知識的優勢,從模型和落地能力中汲取優勢,以提高效能。
因為對於這項工作,我們發現利用知識模型可以提高其在某些實際工作場景中的效能。

推理和推斷非常重要,尤其是在 OpenAI-o1 和 DeepSeek R1 釋出之後,我們有一個純粹基於自己研究的版本,這確實非常困難。
但事實上,我們在 OpenAI 釋出相關模型之前就釋出了關於 Q* 的第一篇論文。我們需要一個 G 函式,用於估算從初始狀態到當前節點的成本。在我們的工作中,我們使用的 G 函式是透過利用文獻中的資料來訓練模型的。對於啟發式函式(h 值),我們實際上是自己進行了修正。
所以,基於我們的資料,訓練這樣一個強大的模型有很多方法。最終,我們將這兩者結合起來,並應用 A* 搜尋演算法,以提升大型語言模型的推理能力。

所以,我們早期做了些實驗。你可以降低那些數值,因為那時候基礎模型還不夠強大。我想關鍵點是,如果你應用這種推理方法,它可以提升基礎模型的效能。
然後我們以某種方式訓練它們的 Q 值函式。所以,我們還在考慮是否能夠克服困難,例如,將這種方法應用於改進最近的 DeepSeek 模型以及其他模型。

所以,我們在比較控制方面也做了一些關於 Synapse 的工作,是我們去年年初發表的成果之一。這些工作涉及一些想法,比如狀態抽象訓練、從演示中學習,以及使用記憶等方法,來改進計算機控制任務。

我們還提供了一個用於構建通用虛擬Agent的開發者工具包。我們提供了更好的介面,還提供了更強大的前端支援,並且提供了大量的基準測試,用於設計適用於PC控制、計算機控制等場景的通用虛擬Agent,也適用於移動裝置的控制。

接下來的這項工作涉及利用語言模型驅動的智慧體來玩具有挑戰性的電子遊戲。
因此,我們構建了一個智慧體架構,包括不同的元件,例如我們需要理解環境。它包含一個反思模型、記憶模型、檢索模型等,用於應對許多具有挑戰性的電子遊戲和不同的軟體。這個專案是開源的,對於感興趣的人非常有吸引力。

我們最近做了一些尚未發表的工作,是關於使用強化學習(RL)對語言模型進行微調的。
我想這在某種程度上與一些早期工作有所不同,在我們過去看到的大多數工作中,強化學習並沒有涉及智慧體。你知道的,人們只是構建不同的元件,使用語言模型作為大腦,並結合其他元件來處理複雜任務。
但在這裡,我認為在未來,對於許多現實世界的問題,我們需要強化學習的能力。然而,如果我們想將強化學習應用於這些場景,會面臨許多挑戰,其中最顯著的是探索空間的指數級增長。因為開放和實際動作技能的取樣空間會隨著矩形的大小和厚度呈指數級增長,因為探索空間是在token級別上的,所以token空間非常龐大。因此,我們需要解決探索問題。同時,我們注意到並非所有token在最終決策動作中都發揮有意義的作用。
所以,我認為我們在這裡得到的啟示是,我們必須設計一些機制來決定如何進行更有效的探索,以便提高強化學習微調的效率,從而提升語言模型的效能。因此,我們設計了一個名為“CoSo”的方法,它包含幾個關鍵思想。首先,我們使用事實推理來識別對動作至關重要的token。
不是每個token都對智慧體最終採取的動作產生影響,或者產生相同的影響。因此,我們使用因果推理來找出這些token,然後利用這些資訊來決定如何進行探索。其次,我們可以中斷最佳化過程,將我們的探索集中在那些有影響的token上。
這是利用我們在第一步中學到的結果。然後我們嘗試進行了許多實驗,可以看到這種方法顯著提高了視覺語言模型(VLM)在一些非常具有挑戰性的任務中的效能。我認為這還是一項正在進行的工作,例如我剛才提到的創造性工作。

初創公司 Weco Al 的 CTO Yuxiang 做了題為《AlDE: Searching Intelligence in the Space of Solutions》的分享,闡述在解空間中尋找智慧的新思考,介紹了一種由人工智慧驅動的強大的 Agent—— AIDE。
我們之所以稱之為 AIDE 是因為,它就像一種由人工智慧驅動的強大的 Agent,能夠處理完整的機器和工程任務。所以,如果將機器學習和工程視為一個程式碼最佳化問題,那麼它就會將整個搜尋或程式碼最佳化的過程形式化為在解空間中的樹搜尋。在這個被形式化的解空間中,它只是一個任何大語言模型都可以編寫的程式碼空間。
你可能見過其他更具體的Agent,比如那些提示 APIAgent 或反應式 Agent,它們將所有歷史解決方案組織成樹狀結構。然後,將所有這些歷史解決方案納入上下文中,但這個過程實際上是遞增的。因此,它會迅速積累上下文資訊,所以在長期的程式碼最佳化過程中,它可能不會表現得很好。

所以,這個問題被重新定義為一個最佳化問題。機器學習可以在機器中完成,然後我們可以定義所有相關的評估指標。這與我們提出的機器學習工程 Agent 非常契合,其定義的獎勵或最佳化目標也非常簡單。我們只是在這個程式碼空間中進行搜尋,目標是最佳化機器學習程式碼和機器學習工程任務中的目標函式。這個目標函式可以是驗證精度、損失,或者是任何與你的機器學習成本相關的指標。
而程式碼空間在本例中被非常具體地定義為用於解決該問題的Python指令碼空間。好處是我們現在可以在一個公平的指標上比較解決方案,並且使這些依賴於單一標準已知評估的研究方法更加統一,整個搜尋過程也會更加穩健。

因此,我們開發了這種演算法,它本質上是一個樹搜尋問題。你從一棵空樹開始,首先會生成一個初始節點,實際上是一組基礎解決方案。然後,它透過檢視現有的程式碼和現有的解決方案,迭代地提出新的解決方案。這些解決方案已經生成了,然後它會提出你的解決方案,並且基於這個想法,它會生成那段程式碼,然後執行程式碼以評估解決方案,並記錄新的節點。
這裡的評估指標是滾動(scroll),通常在機器學習任務中,這個指標可以是精度(accuracy)、損失(loss)或者隨便你怎麼稱呼它。然後它會根據這個指標選擇下一個節點,以便進一步最佳化。所以,它涉及了所有這些搜尋策略、總結運算子以及編碼運算子。這些運算子不再完全由演算法定義,而是部分由大型語言模型定義。

所以,為了更直觀地展示,我們從 S0 開始,這是一個初始的空解決方案,也就是我們的資料狀態。我們還沒有任何現有的機器學習任務的解決方案,然後它開始起草三個。例如,起草三個方向不同的解決方案。所以在提示中,有一個技巧是我們會明確要求它探索不同的方向,以確保 S01、 S2 和 S3 之間有足夠的多樣性。然後在下一步,它會選擇一個節點開始最佳化。
例如,嘗試不同的步驟來修復問題,如果成功修復了,它就成為一個有效的解決方案。然後這個解決方案就被儲存為一個有效的解決方案,此時你有了一個當前最佳節點,比如 S5,然後它開始探索下一個要最佳化的節點。它會保證每個草擬的解決方案至少被探索一次,並且會從 S2 等節點分別生成另一個改進方案,然後評估為解決方案6或7,這個過程會不斷持續,直到用盡所有的最佳化步驟。
所以最終,選擇最優解其實相當簡單,因為所有這些解決方案都是用相同的評估指標來評估的。所以,基於評估指標,你就能得到那個最優解。

是什麼定義了整個過程呢?有幾個關鍵元件。首先是搜尋策略。在這個案例中,我們實際上採用了一個非常簡單的熱編碼策略。
在起草階段,當它起草多個解決方案時,由於它還沒有一棵樹,也就是說我們還沒有分配初始解決方案,它會建立多個解決方案來探索不同的方法。而在除錯階段,當它進入除錯階段後,它會有一個最大除錯步數限制,它會在那個節點停留,直到達到允許的最大除錯步數。
通常我們會將這個最大除錯步數設定為10到20步,以避免這個Agent花費過多時間在除錯上,從而陷入幾乎無限迴圈,浪費大量時間和計算資源。當然,最重要也最有趣的部分並不是什麼時候選擇一個節點來進行改進。
所以當它完成除錯或起草後,就會進入一個階段,來改進一個桶節點。這只是一個貪婪演算法,它會選擇樹中當前表現最好的解決方案,然後決定進一步最佳化樹中表現最高的那個節點。

所以在編碼運算子中,我們也會根據不同的階段採用不同的提示策略。比如在起草階段,我們會鼓勵它為模型架構和特徵工程制定一個計劃,並要求它生成一個單檔案Python程式來實現這個計劃。在底層階段,Agent會收到錯誤日誌和堆疊跟蹤,以識別問題所在。
然後,它會透過保留整體先前的方法來糾正問題。因此,我們確保除錯實際上不會改變解決方案本身。在改進模式或改進階段,我們會提示Agent提出一個原子級別的改變。這是另一個我們希望納入這個框架的觀察結果,即每一步實際上都是可解釋的。行動本身是可解釋的,並且是原子性的。
因此,我們不允許Agent或大型語言模型一次提出多個改進。相反,我們會提示它逐步、增量地進行改進。在這個過程中,我們不會跳過任何中間步驟的最佳化想法,這使得它能夠進行更細緻的探索,並且在整體上更具可解釋性。
也就是說,它能夠更好地展示出達到最優解的最佳路徑是什麼。例如,切換最佳化器、新增一層、使網路變得更深,或者從一種架構轉換到另一種架構、新增正則化等。如果你檢查它最終生成的樹軌跡或樹結構,你會發現很多這樣的原子最佳化步驟,而且很多時候這些步驟是非常有洞察力的。

最後,因為一個最大的問題是你需要管理上下文,比如可能需要執行8個步驟。例如,OpenAI運行了500個步驟,即使是Gemini,也沒有辦法真正處理那麼長的上下文。所以,必須有一種方法來管理上下文。這就是我們所說的總結運算子,它會提取相關資訊,以避免上下文過載。
總結運算子會包含效能指標,比如當前的準確率、高參數設定和除錯階段的資訊。這是非常重要的,尤其是在除錯階段。好處是我們可以截斷它之前可以處理的節點數量。
我們可以將總結後的資訊放入大型語言模型的上下文中,以生成除錯節點或改進節點。這將保持一個幾乎恆定的視窗大小,供Agent使用,這使我們能夠真正擴充套件到很長的時間範圍,比如對比步驟。
而且,因為我們將其定義為逐步改進,這也使得整個最佳化運算子變得無狀態。它不再依賴於整個軌跡,而是無狀態的,不會像提示或上下文大小那樣呈爆炸式增長。

來自 Huawei London 的邵坤做了主題為《Towards generalist GUl Agents: model and optimization》的演講,介紹了面向通用型 GUI Agent 的模型和最佳化。
以下是GUI Agent的演示,他們有不同的任務,比如我們有三個不同的平臺。第一個是獲取關於美元的研究結果,我們可以從主使用者介面頁面開始。然後,我們可以執行一些步驟前往麥當勞,進入麥當勞餐廳並搜尋那裡的薯條,我們還可以設定多個步驟並提高目標。這就是GUI Agent可以幫助我們的地方。

在另一個網站上,GUI Agent 也許可以找到一些更好的解決方案,幫助人類完成這類任務。這就是 GUI Agent 的意義。

從2023年到2025年,你可以看到 GUI Agent 已經廣泛流行起來。它重新引發了對Agent研究的關注,無論是學術界還是大型科技公司都在關注GUI Agent。這種關注不僅侷限於移動裝置,還涵蓋了網站和計算領域。

我們還將這些主題引入到 GUI Agent 中,例如第一個是關於生成的。實際上,使用這種模型來指導行動並不好。因此,當我們為GUI Agent提供當前模型能力時,我們有不同型別的改進方法來實現更好的模型。但你必須理解,如何實現,如何為UI設計Pythonian,以及如何設計分層架構。
第二個是關於Agent系統。在我們有了專案模型之後,我們還需要一些其他自動化的模型來提高GUI Agent的效能和效率。為了實現這一點,我們有不同的解決方案,我們可以有資料庫規劃、反射機制、也可以使用記憶和檢索器。
我還想強調的另一個重點是,我們還想做很多關於微調的工作,因為可以說強化學習對於Agent的微調是非常重要的,我們需要某種目的。例如,如何利用當前模型作為評判。如何發揮生成角色模型的作用,以及如何為角色模型進行更好的微調。同時,我們需要找到更好的方法來實現我們高效、可靠且穩健的強化學習訓練,並且我們需要找到最適合GUI Agent的演算法。
最後一個問題是關於評估的。當設計不同的基準任務時,對於兩個Agent來說評估非常重要,我們需要設計評估指標。

同樣,我們也提出一些研究問題。
第一個問題是,我們需要找到並提出一個基準測試。因為目前我們可以看到很多關於GUI Agent的論文。所以我們需要設計一個全面的基準測試,它可以用於不同的應用程式,以及不同的Agent。因此,當你找到一個用於評估Agent的流程時,它不僅僅依賴人工干預。
第二部分是,我們需要設計一個行動模型。眾所周知,如果我們僅僅使用當前的基礎模型來執行Agent任務,那麼我們需要找到一些方法來訓練出效能良好且高效的模型。
最後一個問題是關於如何為GUI Agent進行高效的強化學習微調。我們必須讓Agent能夠充分利用有限的資料,並逐步提高效能。對於GUI Agent來說,進行微調並不是一件容易的事,因此我們還需要找到一些方法來解決這個問題。

來自 UCL 的宋研 ,做了主題為《The Power of Reinforcement Learning in LLM Reasoning》的演講,討論了強化學習在大型語言模型推理中的作用。
這是R1-zero的結果,它的基準測試結果非常好,甚至比OpenAI的o1還要出色。更令人印象深刻的是,它的訓練過程非常穩定。而且它在擴充套件性方面表現出色。對於R1-zero來說,它在過去的準確率方面並不比最新的原始版本更好。但當你嘗試生成內容時,它顯然能夠產生更好的結果。

還有他們在論文中提到的一個“Aha時刻”。在強化學習階段,語言模型學會了增加思考預算。這可能是因為你需要更多的token來進行思考,從而解決一些難題。這一觀點得到了一些支援。他們發現,當Agent使用某些關鍵詞時,它們會進行各種回溯、自我報告和複雜推理。
但對此也有另一種可能的解釋。首先,基礎模型本身已經具備自我糾正的能力。所以,從技術角度來看,這並不是一個非常“Aha”的時刻,而是表明強化學習確實可以在簡單的設定下發揮作用。我認為這才是最重要的。

對於R1版本,他們使用初始資料開始訓練,然後在強化學習(RL)的場景中進行訓練。結論是,大型語言模型(LLM)具有強大的能力,能夠進行穩定的強化學習,而小型語言模型則採用知識蒸餾的方式進行訓練。

在R1釋出之後,我們在後續的訓練和增量更新中推出了TinyZero,這是一個30億引數的大型模型。此外,SimpleRL是在70億引數的LLM上實現的Zero-RL。所以,所有這些工作都使用了Zero-RL。至少基本的想法是,你需要有一個強大的基礎模型,以便能夠學會推理。下一步是它們可以學會探索,然後它們可以學會自我糾正。

最近也有一些多模態的Zero-RL工作。這些工作基於Open-R1程式碼庫、OpenRLHF程式碼庫或Verl程式碼庫。

我們也在小規模上進行了一些實驗。基本設定是我們嘗試在數學問題上進行訓練,選擇的難度等級為三到五,這與SimpleRL之前的程式碼庫設定相同,我們發現這相當重要。我們需要進行篩選,而我們是在Qwen2.5-Math-7B上進行的。
其效能表現良好,如圖所示。藍色線條表示從基礎模型開始的強化學習,它能夠推廣到AIME2024,這非常難以解決。但它僅在數學問題上進行訓練,透過使用監督微調資料,它可以在GSM8k上獲得更好的效能。但在AIME2024上,它給出的結果非常糟糕。這意味著,監督微調資料可能會損害強化學習帶來的泛化能力。
我們還在LLaMA上進行了實驗,但結果並不理想。

接下來,Yan Song 也分享一些最近工作中的前瞻見解。

來自 UCL、Google Deepmind 的馮熙棟探討了《Natural Language Reinforcement Learning》,介紹了把強化學習的組成部分用自然語言描述出來的理念。
如果我們有了新的強化學習正規化,那會怎樣?如果我們不學習已經確定的值函式,而是學習語言值函式呢?也就是說,我們嘗試用自然語言來描述狀態的值、描述狀態-動作對。為什麼不乾脆把所有強化學習的組成部分都用語言表達出來呢?這正是我們最近努力的方向。

我們是從傳統的強化學習概念中汲取靈感,但我們正在將所有這些強化學習的概念重新定義為自然語言表示空間中的內容。我們嘗試將策略、值函式、貝爾曼方程、蒙特卡洛取樣、時間差分學習以及策略改進運算子等,對映到它們的自然語言對應中。
這裡我展示了一個這樣的例子。在強化學習中,你有一個策略,它是分散式的。但在自然語言強化學習中,你可能會有一個語言策略。也就是說,你不一定需要直接將你的狀態和動作對映過去。相反,你可以嘗試說:“我先對狀態進行一些分析,然後再採取行動。”所以,讓我們用語言策略來響應。
在傳統的強化學習中,你有標量獎勵,即即時獎勵。但在自然語言強化學習中,你可能會有語言反饋,比如“你達到了目標”,這不僅僅像傳統強化學習中的+1獎勵,它可以包含更豐富的資訊。
在狀態方面,你不需要是一個高維狀態,你也可以用語言來描述狀態。例如,你可以這樣說“你正在滾動……”之類的內容。對於值函式,在強化學習中,我們過去習慣於使用預期的累積獎勵。但現在,我們可以有一個更自然的語言表示。我們可以嘗試用語言描述符來總結未來的軌跡,最終,還有貝爾曼方程。
傳統的貝爾曼方程試圖衡量當前狀態與其後續狀態之間的關係。我們也可以在自然語言評估中做類似的事情。如果你試圖評估當前的狀態,那麼你的當前狀態評估不可能與後續狀態評估相差甚遠。因此,你的自然語言評估必須在連續狀態之間具有一致性、自我一致性。所以,這也是貝爾曼方程,但它發生在自然語言空間中。

同樣地,我們可以嘗試將傳統的蒙特卡洛取樣和時間差分學習方法對映到自然語言中。假設我們有兩種語言聚合器 G1 和 G2 。在傳統的蒙特卡洛方法中,我們透過取樣大量的軌跡來估計其折扣獎勵的累積和,並試圖透過計算這些軌跡的平均獎勵來估計我們的軌跡。
在自然語言中,我們也可以做類似的事情。我們從時間步 (t+1) 開始取樣,直到無窮大。我們有很多基於語言的幾何取樣結果,並且假設我們有一些語言資訊聚合器,因為當然,我們不能對語言進行求平均或求和操作,因為它們不是數字。但如果有一個語言聚合器,我們可以要求它從這些不同的取樣語言軌跡中總結和聚合資訊。
G1 可以負責從多個軌跡中聚合評估結果,並將所有步驟聚合到一個專案中。這在物理上是完全相同的事情,只是發生在不同的空間中。因此,我們需要在傳統強化學習中實現不同的聚合運算子。在傳統強化學習中,它是平均值;在基於語言的案例中,它只是一個語言聚合器。
對於時間差分學習也是如此。時間差分學習的理念是,如果你試圖評估當前狀態的值,你可以向前邁出一步,並將即時獎勵與未來狀態評估結果結合起來,以形成你對當前狀態的評估。
在自然語言強化學習中,我們也可以做完全相同的事情。假設我們有 G1 和 G2 這兩個語言聚合器, G2負責將即時獎勵和未來評估結果合併。我們可以讓 G2 接收即時轉換的描述和未來狀態評估結果,並讓 G1 負責從多個軌跡中聚合評估結果。雖然在傳統強化學習和自然語言強化學習中,它們的實現方式不同,但理念是相似的。你可以透過不同的聚合器看到我們的新語言時間差分學習是如何響應傳統時間差分學習的。

闡述完概念之後,Xidong Feng 也談了這種方法的具體實現,給出瞭如何利用大型語言模型(LLMs)實現自然語言強化學習(NLRL)的幾條路徑。

阿里通義千問的林俊暘做了題為《Qwen: Towards Generalist Models》的演講,系統介紹了通義千問在技術、工程化方面的進展,以下是關於通義千問大模型在資料量方面的細節。
在Qwen2.5版本中,資料量擴充套件到18T。但現在我們正在考慮用更多的token進行訓練,比如30萬億到40萬億個token。這只是一個很大的數量,但對於訓練大型模型來說很重要,不僅需要高質量的資料,還需要大量的資料。這就是為什麼我們在進行多階段預訓練,因為你需要訓練大量的資料。但資料中有髒資料,在第一階段,然後是更高質量的,再到不同階段的更高質量。

在模型規模方面,我們開源了7種不同規模的模型,範圍從0.5B到72B。因此,你可以透過這些不同規模的模型來研究擴充套件規律。但目前我們討論的是密集型模型,我們現在正在考慮MoE(Mixture of Experts)模型,它與密集型模型有些相似,但在訓練和記憶體模型方面有更多的技術細節,但總體上它仍然遵循擴充套件規律。
在擴充套件模型規模方面,不僅僅是模型本身的規模,還有啟用引數的規模。還有一種掃描方式,但模型規模門控實際上已被證明是非常有效的。我們的開源模型中有許多細節,你可以去檢視這些細節。

在上下文長度擴充套件方面,這也是我們之前非常關注的一個問題。人們之前訓練的模型上下文長度為 32K tokens 然後擴充套件到 128k tokens token。真的有這麼長嗎?但你甚至可以將其擴充套件到甚至1000萬,這也是有可能的。現在人們正在考慮轉向無限長度,所以他們希望使用類似傳統的多頭注意力機制來實現。也許線性注意力是未來的發展方向,但在這一領域我們還沒有取得重大突破。
但我們有一些技術可以將其進一步擴充套件,而無需進一步訓練。這是一種無需訓練的技術,稱為 Trunk Attention(截斷注意力),你可以檢視 Trunk Attention 的技術報告。
我們團隊在ICML上發表了一篇相關論文,還有另一個技術問題是在部署方面。擁有100萬上下文token的模型,部署起來非常困難。因此,你需要使用一些技術來引入稀疏性,從而加快推理速度。你可以看到,之前首次生成一個token需要5分鐘,而現在只需要1分鐘,這也意味著它會更便宜,因為注意力機制中存在稀疏性,但我們發現效能並沒有下降,或者在100萬token的上下文中,我們得到了一個性價比很高的預期效能。

除了理解長上下文之外,還有另一種擴充套件,那就是生成長上下文的能力。以前我們能夠生成 8k tokens,但你會發現這還不夠。因為現在我們有長鏈式推理(Long Chain of Thought),所以,它之前還不足以生成非常、非常長的文字,但如今情況已經大不相同了。也許現在它能夠生成像 12.8k 個 token 的文字,這實際上是可以實現的。對於目前的Qwen來說,它實際上能夠生成大約 32k 的 token。




更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
