對話階躍星辰姜大昕：我們就是“多模態卷王”，這便是階躍衝擊AGI的方式

作者｜王兆洋郵箱｜[email protected]

姜大昕和階躍星辰也是有野心的。

只不過這些野望藏在姜大昕習慣性追求“邏輯嚴謹”的表述裡，不易察覺。而階躍星辰追求各個模態各種模型都不能錯過的技術佈局，更讓這家公司此前在外界看來有點若隱若現。

事實上這家剛剛成立兩年的大模型公司，已釋出了22款自研基座模型，從文字、影像、到影片、語音，以及音樂和推理等，且大多數為多模態模型。

5月8日，階躍星辰創始人和CEO姜大昕在階躍星辰北京辦公室分享了他最近的思考和階躍的研發更新。在他的PPT裡，他把階躍的模型分成兩類，語言&推理，以及多模態。他稱其為階躍的Step系列模型矩陣。

“國內的大模型公司裡面，像我們這樣重視模態的全覆蓋並且堅持原生多模理念的公司並不多，但階躍從一開始就始終認為多模態對通用人工智慧非常重要。有一句話我也在很多場合不停的重複：我們認為多模態是實現 AGI 的必經之路。”

但這樣的全面有時候對圍觀者來說意味著重點模糊。在一個所有人為AI 焦慮的時期，缺少某一個“爆款”的模型，會讓圍觀的人們無法集中注意力。在姜大昕和階躍內部的判斷，這是他們從技術路線發展和行業現狀出發從第一天主動選擇的路線。在DeepSeek前後，許多AI公司大幅度掉頭，有的從應用轉回預訓練，然後在“預訓練撞牆”論流行後，許多公司又紛紛放棄預訓練，而階躍則基本上一直在把重心放在基礎模型側。

“追求智慧的上限，我們認為這仍然是當下最重要的一件事。我們還是堅持基礎大模型的研發。”他說。階躍在最近還調整了此前推出的類ChatGPT的產品，姜大昕認為，這些是過渡期的一些嘗試，而“DeepSeek給我們的經驗就是，投流的邏輯實際上（對AI的c端產品來說）是不成立的”。

聽姜大昕分享，你會感覺即便是今天教授創業成風的AI領域，他也比其他人更像一個教授，追求一環又一環的邏輯推演。這種思考方式的一個典型表現是，他習慣於向AI的歷史演變裡找答案，非常在意做一件事背後路線的判斷，會花很多時間尋找“主流的技術脈絡和共性的規律”。

在他看來，“模型的發展是沿著這樣一條智慧演進的路線往前進化的：模擬世界、探索世界、歸納世界。”

他認為今天正在發生的“大勢”有兩個，一個已經完成，就是“推理模型從一個趨勢變成了一個正規化，現在語言模型基本上是推理模型一統天下。”

而另一個還沒有統一答案的重要課題，則是多模態理解生成的一體化。其實更具體來說，在這個階段就是視覺領域的理解生成一體化。

“什麼叫做理解生成一體化，它的定義是理解和生成是用一個模型來完成。”他說。文字模型諸如ChatGPT已經完成理解生成一體化，但視覺領域沒有。

“即使是對圖片，我們理解的時候用的是 GPT-4o 這樣的模型，或者是在階躍是用的 Step-1o。那麼生成又換了其他的模型，比如說用 Flux、用 Stable Diffusion，階躍是用 Step image 這樣的模型。它是分開的。”

為什麼一定要做理解生成一體化？姜大昕認為，簡單說就是“生成需要理解來控制，理解需要生成來監督”。

但與語言模型不同，多模態的複雜度要高出很多。

“所以在視覺領域我們還沒有一個很好的、很高效地表達這麼一個連續的高維的連續空間的生成問題，所以我們只好理解的時候用了一個 auto-regression Model 是自迴歸模型，生成的時候還得依賴 diffusion Model。”

為了解決這個視覺領域的“靈魂拷問”，目前有兩種主要方法，一是嘗試把這些高維的連續分佈變成一個離散的像語言token的東西，但這個過程資訊就丟失了，“從來沒有成功過”。第二種就是把auto-regression 的架構和 diffusion 的架構合在一起，但“也沒有做得很成功”。姜大昕認為這個問題目前還在探索的階段。

“你們的路線是什麼？”我在交流現場問姜大昕。

“我可以說內部有多條技術路線，因為確實是不知道（哪個是最終的）。不謙虛地說，我們的技術人才儲備是很雄厚的，可以說大家是各執己見，我的意思就是你做出來才算，誰都可以做，所以是有多條路線在併發。”

這很容易讓人想到網際網路公司常用的賽馬機制，而這種機制背後某種程度往往也是人才的積累之爭。

這名前微軟全球副總裁創業後，ResNet作者之一的張祥雨、AI Infra專家朱亦博也先後加入階躍。去年12月，階躍星辰再次完成B輪數億美元融資。多個開源模型在開源社群獲得了不錯的反響。

這些是姜大昕的底氣。

而在他看來，視覺模型的一體化目前甚至還沒有到“Transformer 時刻”，今天依然沒有這個最合適的能規模化的架構，他形容目前很多方案是“膠水模型”，把多個模型拼湊起來的思路不會是最終的形態。而階躍希望自己能成為創造出影片的Transformer 的那一個，要做到這一點，他給階躍設計的路線，就是成為多模態的卷王。

“我認同多模態卷王這個名字。”他認為理解和生成一體化是個非常綜合素質的一個考驗。“不是我們不夠focus，而是要做這件事就是需要非常綜合的才能做的出來。所以這也是我們的一個長項，因為我們所有的線能力都非常強，可以組合起來去探索。”姜大昕說。在交流中他也透露，階躍內部此前劃分的生成和理解兩個不同“部門”已經整合為一個“生成理解”團隊。

而在和大家聊了兩個小時後，姜大昕終於難得地透露出了野心。

“我們強調技術領先性，探索的是下一代領先的一體化模型，我們試圖在基礎模型上有代際的（領先），是代際的往前走。”

以下為姜大昕對話實錄，經簡單編輯。

矽星人：你剛才提到了視覺的理解生成一體化的兩種路線，而且效果似乎都不太好，階躍的路線是什麼？

姜大昕：我可以說內部有多條技術路線，因為確實是不知道（哪個是最終的）。不謙虛地說，我們的技術人才儲備是很雄厚的，可以說大家是各執己見，我的意思就是你做出來才算，誰都可以做，所以是有多條路線在併發。

矽星人：你提到現在還沒到GPT-4的時刻，還是等待Transformer 的階段，那麼你們是要做發明Transformer 的，還是等其他人發明後，你是做那個GPT4和ChatGPT的。

姜大昕：那肯定是做出Transformer 。

矽星人：那今天回頭看OpenAI，大家會感嘆Ilya像天才一樣早早認定了一個路線，但聽你的分享，目前視覺還不是這樣，還是多條路線。

姜大昕：我覺得OpenAI當時在 Transformer 出來之前肯定是有多條路線的。核心就是怎麼把language model 做成scalable的架構。當時包括LSTM，GRU，各種各樣的架構，直到最後 Transformer 出來是大家認了，現在就相當於有人在探索LSTM，有人探索GRU，最後要出來一個大家都認的路線。

矽星人：繼續問的話，當初Transformer出來後，“認”它就是最終路線的人，決策的快慢也是不同的，最後也影響今天的格局，這還會再來一次麼？

姜大昕：非常有意思，就是 17 年出來之後，Transformer 一統天下的不是GPT，是Bert。如果大家都在關注也知道，那時候的標題都是什麼霸榜橫掃，當時做自然語言處理的話，就是 Bert 是吊打GPT的，而且GPT比Bert早出來幾個月。但Ilya有執念，他堅決認為沒有生成談不上理解，理解能力都是fake 的，只是一種模式的translation。但是從實際效果來說，我當時在做搜尋，Bert確實好很多，甚至GPT3出來我們很佩服，但效果還是不好。直到ChatGPT出來，大家知道原來可以這樣做。

但這些語言模型發生過一遍的事情，整個邏輯的推進不用在視覺再來一遍。大家輕車熟路，就等著那個Transformer 什麼時候出來，只要這一關突破了，後面就順利很多，不需要像語言模型那樣再從Bert到GPT到ChatGPT探索一次。

提問：人們此前在視覺領域最關注Sora，現在看起來它不是Transformer 級別的，那我們要怎麼判斷OpenAI或者誰做到了。

姜大昕：有一天我看到它能predict the next frame，如果哪天OpenAI說推出了不叫Sora的一個影片生成模型（就有希望）。

其實去年大家對Sora感到興奮的時候，我們非常失望。我們認為主線是理解生成一體化，但Sora沒有在這個路線走，走彎了。不過後來我們去想也有道理，一步走到太難了，所以要兩個獨立往前走，互相鋪墊，左腳踩右腳，比如Sora提到用GPT4o給資料打標，可能迭代幾輪會有不同。但總的路線是一體化，這個不解決，後面都不行。