長上下文處理超越DeepSeek,超長知識庫也能飛速跑!

你好,我是郭震
2025年1月23日DeepSeek釋出最強推理R1模型後,在業界引起強烈反響,迅速登頂app下載榜榜首,並在短短7天內累積使用者1.25億,成為歷史上最快使用者破億的應用。
除了DeepSeek外,咱們還有哪些優秀的開源大模型?開源模型效能是否會超越閉源模型?這篇文章來解答這幾個問題。
1 開源和閉源之爭
如今DeepSeek模型爆火,大家有沒有注意到其他開源模型,如MiniMax-01、Qwen系列。說起MiniMax,大家首先想到的是他家的海螺AI,文生影片業界領先。Qwen是阿里開發的大模型,一直堅持開源。
說起閉源比如國外的GPT, Claude等,國內的文心一言等,他們一直堅持大模型閉源,有的人曾經還倡議用大模型就用閉源的。
關於大模型開源和閉源,曾經一度都在圈內爭論激烈。然後最近隨著開源大模型效能不斷變強,那些閉源收費的模型正面臨與日俱增的壓力。如果未來開源都比閉源的好,相信沒有人再去使用閉源,當閉源沒有了日活使用者,價值將直接歸零,所以現在很多閉源模型包括Altman在內已經開始反思他們是不是戰略有問題:

其實在DeepSeek-R1釋出之前,還有一家公司大模型開源了,它就是有國內大模型六小龍之稱的MiniMax(除此以外還有智譜AI、百川、Kimi、零一萬物、階躍星辰),開源了MiniMax-01模型,我當時獲取這個訊息是從公司創始人閆俊傑接受《晚點》採訪的公眾號文章裡看到的。
裡面有些話讓我記憶深刻。閆俊傑認為大模型就應該開源,大模型是產品出現的驅動力,更好的模型才可能做出更好的APP,更多的使用者未必迭代出更好的大模型。好用的大模型才是一切的基礎,篤定MiniMax首要目標不是增長,不是收入,而是大模型技術加速迭代,認為核心永遠都是大模型核心技術。
因此,我們可以合理推測,MiniMax-01模型選擇在年前開源,這一時間點甚至早於DeepSeek-R1的釋出,這或許預示著MiniMax-01和DeepSeek將共同推動行業趨勢,引領更多企業加入大模型開源的行列。未來隨著越來越多的大模型開源,隨著開源大模型的效能逐日突破並超越閉源模型,到那時答案就會更加清晰明瞭了。
現在這些開源大模型整體效能如何?是否已經接近閉源模型?前幾期文章我們已經領略了DeepSeek、Qwen,接下來咱們瞭解下MiniMax開源的MiniMax-01大模型。
MiniMax-01大模
MiniMax-01模型開源後,業界當時反響還是挺大的,比如他們家的模型支援400萬token上下文,400萬token遠大於閉源大模型支援的20萬token
400萬的token在業界肯定是領先了,就像媒體VentureBeat所說的那樣:
400萬的token是個什麼概念?路遙《平凡世界》三部小說加起來差不多100萬字,按照漢字與token一比一計算下來大概100萬token!從如此浩瀚的文字裡查詢資訊,無異於大海撈針,保證既快又準,難度還是不小的,但是根據MiniMax-01的技術報告,看到效能還是幾乎不亞於先進的閉源模型,在C-SimpleQA、IFEval、Arena-Hard、DROP等資料集得分超越DeepSeek-V3,如下圖所示:
MiniMax-01尤其擅長處理超長的上下文,接下來我來測試驗證下效能到底如何!
這兩天大概看了下MiniMax-01模型68頁的技術報告,普通單欄英文論文一頁通常1k英文單詞,所以MiniMax-01大概有68k,6萬8千個英文單詞。

我先嚐試扔給DeepSeek提取下這篇含6萬8千個英文單詞的論文,DeepSeek反饋這個上下文長度已經超過能力範圍,只能讀取前74%的內容:

然而6萬8千英文單詞這樣的上下文長度對於MiniMax-01開源模型處理起來是沒有壓力的,根據論文測試結果他們能高效處理400萬個token的超長知識庫,按照1個token約等於0.75個單詞計算,MiniMax-01能高效處理大約300萬個英文單詞,300萬是遠大於6.8萬的。所以,當我扔給MiniMax-01模型(訪問入口:chat.minimax.io)時,它很快載入並處理完成,如下圖所示:
載入文件後,當提問DeepSeek讓它總結論文並在適當位置新增關鍵圖,中文回覆時,下面是DeepSeek的回覆,它是以圖1,圖3這樣的文字來新增關鍵圖片:
然而大家看看MiniMax-01模型(處理文字對話的準確模型名稱:MiniMax-Text-01),它能準確提取這68頁PDF知識庫裡的關鍵圖片到回覆文字內容中,能做到文字和圖片多模態回覆,如下圖所示:
接下來,咱們進一步加大測試難度,大幅增加處理PDF的頁數,咱們來個幾百頁的PDF電子書,就用邱錫鵬老師的《神經網路與深度學習》開源版本,一共440頁,學習AI很經典的一本書,想直接獲取PDF學習的可在下面我的公眾號回覆:nndl,獲取這本書
440頁如果按照一頁800字,大約有35萬漢字,直接載入到MiniMax-01模型中,如下圖所示,然後叫它總結這本書的核心要點:
大概30秒左右MiniMax就學習完這本書了,AI的學習效率簡直了,處理完成得到下面回覆,這是部分截圖,我把回覆放進word裡看了下大概有7頁,並且內容提煉準確,這樣一本440多頁的PDF30秒時間就總結出了這樣的一個7頁文件。
經過這些測試我們已經看到了MiniMax在處理長知識庫的能力,在下面紅框所示截圖右側豎長圖中,展示了MiniMax在處理長文字時準確率變動情況,大家看看紅線所示的折線圖一直在上方較為穩定,隨著處理的知識庫文字長度越長,它的效能優勢就越凸顯更是超越了國外一眾閉源收費的大模型。不僅能夠處理的文字更長,而且處理速度也是比DeepSeek要快很多。
能做到這點,得益於MiniMax-01模型創新提出的Lighting Attention,Attention是Transformer架構的核心,是一個二維矩陣儲存了句子中每個單詞之間的兩兩語義關係,兩個單詞語義強取值就越大,一般處理時間複雜度是二次方,然後Lighting Attention透過分塊(Tiling)技術,計算分塊注意力,提出增量儲存機制在推理下一個Token時,只計算新增部分而不是整個序列,從而讓時間複雜度從二次方講到一次線性:

正像DeepSeek、Qwen國產開源大模型一樣,MiniMax也在對大模型內的關鍵元件不斷創新,也是和DeepSeek、Qwen一樣優秀,在處理超長知識庫時展現出強於DeepSeek的優勢。

這樣在處理超長知識庫構建的上下文時,MiniMax-01的作用就顯現出來,後期我打算在構建本地個人知識庫時,接入MiniMax-01模型,利用其高效超長400萬Token處理能力,再加上文字+圖片的回覆,進一步提升大模型+個人知識庫的功能。
3 MiniMax總結

透過上面大家看到,MiniMax在處理長文字、超長知識庫,有著較大的優勢,優秀的開源大模型不止DeepSeek一家,大家在日常遇到較長PDF知識庫需要總結時,使用MiniMax-01是非常好的一個選擇。

現在再回頭看MiniMax老大閆俊傑在年前對開源的判斷,對大模型研發戰略的研判:
  1. 把大模型開源更利於行業發展
  2. 好用的大模型才是一切的基礎,只有不斷迭代大模型的核心,才是做好其他一切的根基
這讓我對國產大模型MiniMax有了更多期待,他們越強對我們讀者朋友們越有益處,越能加速我們的日常開發和工作效率。
希望透過這篇文章讓大家更加好的認識到MiniMax的優秀和獨特優勢,更好的利用好目前這些優秀的國產開源大模型。
以上全文3189字,13張圖。如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個⭐️,謝謝你看我的文章,我們下篇再見。


相關文章