
作者
|週一笑
郵箱
在當今大模型領域,Transformer架構佔據著主導地位。然而,儘管Transformer非常強大,但它的計算需求隨著文字長度呈平方級增長,這導致執行成本高昂,同時限制了其擴充套件能力。
與此相對,更為古老的RNN(迴圈神經網路)架構雖然計算效率高,但通常無法達到Transformer的效能水平,並且訓練過程更為複雜和緩慢。
在這一背景下,由元始智慧創始人彭博提出了RWKV架構。RWKV融合了Transformer和RNN的優點,在訓練階段可以像Transformer那樣平行計算,在推理階段又能像RNN那樣高效執行。隨著發展,RWKV現已成為隸屬於Linux基金會的開源非盈利組織,其程式碼、模型和文件均公開透明,核心專案RWKV-LM在GitHub上開源,形成了一個活躍的開發者社群。
自2021年8月首個實驗性版本RWKV-V1釋出以來,RWKV架構經歷了多次重要迭代。它最初是對傳統迴圈神經網路的改良嘗試,旨在解決處理長文字時的效率問題。2023年,RWKV-4實現了關鍵突破,使其能夠在普通硬體環境下高效處理各種語言和長篇文字。此後,RWKV逐漸被納入主流AI工具庫,RWKV社群的開發者甚至發現微軟Windows系統在Office元件更新後內建了RWKV的執行庫。
剛剛釋出論文的RWKV-7是這一架構的最新進展,它採用創新的動態狀態演化技術,支援100多種語言,能夠編寫程式碼,處理超長文字。RWKV-7系列釋出了七個預訓練模型,引數規模從0.19億到29億不等,訓練token數量從1.6萬億到5.6萬億不等,適應不同應用場景的需求。

彭博稱RWKV-7設計靈感來自於“第一性原理”,核心想法是:模型的內部世界必須持續擬合外部世界。

這聽起來有點抽象,但我們可以把它想象成一個“聰明的學生”在學習和適應環境的過程。QKV-softmax-attention(常見於 transformer 模型),它的做法是把所有“問題-答案”對放在一起,然後透過比較新問題 q 和每個“問題” k 的相似度,來決定答案是什麼。就像小學生每次考試前,把課本里的所有題目都翻一遍,找到和新問題最像的那個,再寫下答案。
而 RWKV-7 的方法不是每次都去翻課本,而是直接從這些“問題-答案”對中動態學到一個“變換規則”(k -> v 的對映)。這個規則就像小學生自己總結出的解題技巧,遇到新問題時,直接用這個技巧推匯出答案。
1
效能驗證:超同尺寸模型
RWKV-的7創新在實際效能測試中也得到了驗證,在訓練資料遠低於 Qwen2.5、Llama3.2 等開源模型的前提下,RWKV-7-World 模型的語言建模能力在所有開源 3B 規模模型中達到 SoTA 水平。

RWKV團隊採用 Uncheatable Eval 方法——利用 2025 年 1 月之後的最新論文、新聞文章等即時資料,測試開源大語言模型的真實建模能力和泛化能力。

評測結果顯示,在同等引數規模的前沿模型中,RWKV-7 依然具備強競爭力,展現出優秀的適應性和泛化效能。團隊正在訓練資料更多的 RWKV7-G1 系列模型,目標是在這個榜單同樣超越所有其他前沿模型。

1
技術創新:動態狀態演化
RWKV-7究竟透過哪些技術創新實現了這些令人印象深刻的效能表現呢?根據由社群成員聯合撰寫的RWKV-7架構論文《RWKV-7 "Goose" with Expressive Dynamic State Evolution》,RWKV-7引入了一項名為“表達性動態狀態演化”的關鍵創新,這是其效能提升的核心所在 。具體來說,RWKV-7透過引入一種廣義化的delta規則,使模型能更好地理解和處理資訊。
RWKV-7在讀取新資訊時,有一種特殊的方式來更新其記憶,有點像記筆記。這種特殊的方式被稱為“廣義 Delta 規則”。
把模型想象成有一個草稿本,它在上面記錄了從目前為止的文字中學到的東西。當它看到一個新的詞或資訊時,它需要決定如何更新這個草稿本。
最初的“Delta 規則”擦除一點它為該鍵儲存的舊資訊,並新增一點新資訊。它擦除和新增的數量由一個簡單的數字控制。現在,RWKV-7 的規則是“廣義的”,這意味著它更靈活、更強大。它不是隻用一個數字來決定為一個鍵擦除和新增多少資訊,而是使用更詳細的指令。
透過引入廣義Delta Rule,RWKV-7 使用 2 層即可實現 複雜度的 狀態跟蹤問題,使用 4 層即可識別所有正則語言。
簡單來說,Transformers在處理這些“正則語言”時有侷限性。它們的能力被限制在一個叫 TC0 的計算類別裡。TC0 就像是一個只能用固定步驟解決問題的工具箱,遇到某些複雜任務時就顯得力不從心。
而RWKV-7可以用固定的層數(也就是固定的計算步驟)處理所有正則語言。這意味著,不管語言規則有多複雜。
這個能力聽起來很理論,但實際上特別有用。RWKV-7 能更高效地解決一些需要“跟蹤狀態”的問題。什麼是“跟蹤狀態”呢?舉個例子:
在讀一個長故事時,記住誰做了什麼、事情是怎麼發展的;
在理解一句複雜句子時,搞清楚每個詞之間的關係。
這些任務需要模型一邊讀一邊更新自己的“記憶”。RWKV-7 靠它的“狀態矩陣”來做到這一點。你可以把“狀態矩陣”想象成一個記事本,模型會在這上面記下看到的資訊,還能靈活地“交換”資訊或者改變記錄的方式(專業點叫“狀態轉換函式”)。

應用方面,RWKV-7適用於語言建模和多模態應用,其高效處理長上下文的能力使其在文件摘要、對話系統和程式碼生成等領域具有優勢。其無注意力機制和恆定記憶體使用也使其適合資源受限的裝置,潛在擴充套件到邊緣計算場景。
RWKV-7開發團隊已規劃了明確的技術發展方向,計劃透過擴充訓練資料集來支援更大規模模型的訓練,同時將致力於增強模型的思維鏈推理能力。
團隊還將評估採用DeepSeek近期研究中驗證有效的前沿技術,包括混合專家模型(MoE)架構、多token預測技術和FP8精度訓練等最佳化方案。
為了促進開放性、可復現性和採用,RWKV-7開發團隊在Hugging Face上釋出了模型和資料集元件列表,並在GitHub上釋出了訓練和推理程式碼,所有這些資源均在Apache 2.0許可下提供,允許廣泛應用於研究和商業專案。
1
超越Transformer
Transformer廣泛用於自然語言處理和其他領域,但它在處理長序列時存在顯著的侷限性。例如,對於百萬級別的上下文視窗,Transformer 的效能會顯著下降,限制了其在實際應用中的可擴充套件性。對於需要低延遲或在資源受限裝置上執行的場景(如移動裝置或即時系統),Transformer 的高計算成本和記憶體消耗成為瓶頸。
Mamba是另一個獲得相當多關注的 Transformer 替代方案,Transformer 如此流行,以至於提出它們的原始論文自發表以來的 8 年間獲得了超過 17.1 萬次引用,而提出 LSTM 的 1997 年論文則有 12.2 萬次引用。Mamba 論文有 2537 次引用,RetNet 有 350 次,xLSTM 有 31次,RWKV論文有510次引用,而谷歌DeepMind最新提出的Titans架構只有12次引用。
類似RWKV-7這樣的發展,即使還不會完全顛覆現有的正規化,也會推動這一領域的進一步發展,AI的未來不僅將由更大的模型塑造,還將由更智慧的架構設計引領。
