長上下文處理超越DeepSeek，超長知識庫也能飛速跑！

你好，我是郭震

2025年1月23日DeepSeek釋出最強推理R1模型後，在業界引起強烈反響，迅速登頂app下載榜榜首，並在短短7天內累積使用者1.25億，成為歷史上最快使用者破億的應用。

除了DeepSeek外，咱們還有哪些優秀的開源大模型？開源模型效能是否會超越閉源模型？這篇文章來解答這幾個問題。

1 開源和閉源之爭

如今DeepSeek模型爆火，大家有沒有注意到其他開源模型，如MiniMax-01、Qwen系列。說起MiniMax，大家首先想到的是他家的海螺AI，文生影片業界領先。Qwen是阿里開發的大模型，一直堅持開源。

說起閉源比如國外的GPT, Claude等，國內的文心一言等，他們一直堅持大模型閉源，有的人曾經還倡議用大模型就用閉源的。

關於大模型開源和閉源，曾經一度都在圈內爭論激烈。然後最近隨著開源大模型效能不斷變強，那些閉源收費的模型正面臨與日俱增的壓力。如果未來開源都比閉源的好，相信沒有人再去使用閉源，當閉源沒有了日活使用者，價值將直接歸零，所以現在很多閉源模型包括Altman在內已經開始反思他們是不是戰略有問題：

其實在DeepSeek-R1釋出之前，還有一家公司大模型開源了，它就是有國內大模型六小龍之稱的MiniMax（除此以外還有智譜AI、百川、Kimi、零一萬物、階躍星辰），開源了MiniMax-01模型，我當時獲取這個訊息是從公司創始人閆俊傑接受《晚點》採訪的公眾號文章裡看到的。

裡面有些話讓我記憶深刻。閆俊傑認為大模型就應該開源，大模型是產品出現的驅動力，更好的模型才可能做出更好的APP，更多的使用者未必迭代出更好的大模型。好用的大模型才是一切的基礎，篤定MiniMax首要目標不是增長，不是收入，而是大模型技術加速迭代，認為核心永遠都是大模型核心技術。

因此，我們可以合理推測，MiniMax-01模型選擇在年前開源，這一時間點甚至早於DeepSeek-R1的釋出，這或許預示著MiniMax-01和DeepSeek將共同推動行業趨勢，引領更多企業加入大模型開源的行列。未來隨著越來越多的大模型開源，隨著開源大模型的效能逐日突破並超越閉源模型，到那時答案就會更加清晰明瞭了。

現在這些開源大模型整體效能如何？是否已經接近閉源模型？前幾期文章我們已經領略了DeepSeek、Qwen，接下來咱們瞭解下MiniMax開源的MiniMax-01大模型。

2 MiniMax-01大模型

MiniMax-01模型開源後，業界當時反響還是挺大的，比如他們家的模型支援400萬token上下文，400萬token遠大於閉源大模型支援的20萬token

400萬的token在業界肯定是領先了，就像媒體VentureBeat所說的那樣：

400萬的token是個什麼概念？路遙《平凡世界》三部小說加起來差不多100萬字，按照漢字與token一比一計算下來大概100萬token！從如此浩瀚的文字裡查詢資訊，無異於大海撈針，保證既快又準，難度還是不小的，但是根據MiniMax-01的技術報告，看到效能還是幾乎不亞於先進的閉源模型，在C-SimpleQA、IFEval、Arena-Hard、DROP等資料集得分超越DeepSeek-V3，如下圖所示：

MiniMax-01尤其擅長處理超長的上下文，接下來我來測試驗證下效能到底如何！

這兩天大概看了下MiniMax-01模型68頁的技術報告，普通單欄英文論文一頁通常1k英文單詞，所以MiniMax-01大概有68k，6萬8千個英文單詞。

我先嚐試扔給DeepSeek提取下這篇含6萬8千個英文單詞的論文，DeepSeek反饋這個上下文長度已經超過能力範圍，只能讀取前74%的內容：

然而6萬8千英文單詞這樣的上下文長度對於MiniMax-01開源模型處理起來是沒有壓力的，根據論文測試結果他們能高效處理400萬個token的超長知識庫，按照1個token約等於0.75個單詞計算，MiniMax-01能高效處理大約300萬個英文單詞，300萬是遠大於6.8萬的。所以，當我扔給MiniMax-01模型（訪問入口：chat.minimax.io）時，它很快載入並處理完成，如下圖所示：

載入文件後，當提問DeepSeek讓它總結論文並在適當位置新增關鍵圖，中文回覆時，下面是DeepSeek的回覆，它是以圖1，圖3這樣的文字來新增關鍵圖片：

然而大家看看MiniMax-01模型（處理文字對話的準確模型名稱：MiniMax-Text-01），它能準確提取這68頁PDF知識庫裡的關鍵圖片到回覆文字內容中，能做到文字和圖片多模態回覆，如下圖所示：

接下來，咱們進一步加大測試難度，大幅增加處理PDF的頁數，咱們來個幾百頁的PDF電子書，就用邱錫鵬老師的《神經網路與深度學習》開源版本，一共440頁，學習AI很經典的一本書，想直接獲取PDF學習的可在下面我的公眾號回覆：nndl，獲取這本書

440頁如果按照一頁800字，大約有35萬漢字，直接載入到MiniMax-01模型中，如下圖所示，然後叫它總結這本書的核心要點：

大概30秒左右MiniMax就學習完這本書了，AI的學習效率簡直了，處理完成得到下面回覆，這是部分截圖，我把回覆放進word裡看了下大概有7頁，並且內容提煉準確，這樣一本440多頁的PDF30秒時間就總結出了這樣的一個7頁文件。

經過這些測試我們已經看到了MiniMax在處理長知識庫的能力，在下面紅框所示截圖右側豎長圖中，展示了MiniMax在處理長文字時準確率變動情況，大家看看紅線所示的折線圖一直在上方較為穩定，隨著處理的知識庫文字長度越長，它的效能優勢就越凸顯，更是超越了國外一眾閉源收費的大模型。不僅能夠處理的文字更長，而且處理速度也是比DeepSeek要快很多。

能做到這點，得益於MiniMax-01模型創新提出的Lighting Attention，Attention是Transformer架構的核心，是一個二維矩陣儲存了句子中每個單詞之間的兩兩語義關係，兩個單詞語義強取值就越大，一般處理時間複雜度是二次方，然後Lighting Attention透過分塊(Tiling)技術，計算分塊注意力，提出增量儲存機制在推理下一個Token時，只計算新增部分而不是整個序列，從而讓時間複雜度從二次方講到一次線性：