AI 是否進入下半場或許還有爭議,但大模型進入淘汰賽已經板上釘釘。
在 DeepSeek R1 橫空出世後更是愈演愈烈,今年光是 OpenAI、Anthropic、Google、Meta、Grok 目前已經合計發了至少 8 款新模型,而國內的 AI 六小龍們也有的開始放棄預訓練,不得不將 AGI 的理想主義束之高閣。
在這當中,階躍星辰是一家有點特殊的公司。在去年年底之前都鮮有融資訊息,但卻在多模態模型上成為「卷王」,成⽴ 2 年間已經發布了 22 款⾃研基座模型,成為最低調神秘的 AI 獨角獸。
階躍星辰創始人兼 CEO 的姜大昕,和這家公司一樣低調,很少出現在 AI 行業熱鬧的輿論場中。
而昨天,姜大昕與 APPSO 等媒體進行一場深度的溝通會,他向我們分享對於 AGI 路徑,多模態模型等技術的看法,以及階躍星辰未來的計劃。
多模態模型還沒出現 GPT-4 時刻,繼續追求「智慧上限」,
當下 AI 大模型領域的內卷沒有盡頭,頭部公司之間不斷上演著「貼臉釋出」的激烈戲碼。
不過姜大昕依然認為,「追求智慧的上限依舊是現階段 AI 業內的重點。」也就是說,雖然現在市面上模型一大堆,看起來都挺能打,但離真正的「聰明」還差得遠。
大家都在搶發新模型,看著熱鬧,但如果只是在現有水平上修修補補,那也只是原地踏步的「內卷」。
姜大昕覺得,現在最要緊的還是得想辦法把 AI 的「智商」往上再拔一拔,不然離大家心心念唸的 AGI(通用人工智慧)還遠著呢。
在 DeepSeek R1 面世,以及大廠高調入場後,不少初創公司開始放棄研發基礎模型,不過姜大昕在接受 APPSO 採訪時表示:
AI 行業的技術發展非常快,依然處於非常陡峭的區間。階躍不想在這個過程中放棄主流增長或前進的趨勢,所以我們還是會堅持做基礎模型的研發。
同時姜大昕表示,應用和模型是相輔相成的,模型可以決定應用的上限,應用給模型提供具體的應用場景和資料。
那怎麼才能讓 AI 更聰明?姜大昕給出的一個關鍵路徑是:「多模態正是實現 AGI 的必經之路。」
很多人說今年的 Agent 元年,姜大昕認為 Agent 爆發需要兩個必要的條件,一個是多模態的能力,另外一個是慢思考的能力。
多模態,說白了就是讓 AI 不光能看懂文字,還得能看圖、聽聲、理解影片。
你想想人不就是眼耳口鼻一塊兒上,才能全面理解這個世界嘛。AI 也得這樣,變成一個能聽、能看、能說的「多面手」。
階躍星辰可以說是多模態模型的「卷王」了,幾乎每個月都發布一款基礎⼤模型,其中多模態模型已經有 16 款。覆蓋了從影像、影片到語音、音樂的理解和生成,用姜大昕的話說,是堅持「原生多模理念」。
不過,姜大昕也挺實在,他坦陳「多模態模型領域目前還沒有出現 GPT-4 時刻。」
雖然多模態現在挺火,各家都在推,但還沒出那種像 GPT-4 在文字領域那樣,一出來就「哇哦」一下,讓所有人都覺得「就是它了」的標杆性產品,技術上還有不少硬骨頭要啃。
對於模型如何一步步逼近智慧的上限,姜大昕描繪了一幅清晰的「三部曲」演進路線圖,也可以說,這是階躍星辰理解的 AGI 演進方向。
模擬世界(模仿學習階段):這階段的 AI 就像個剛學說話的小孩,餵給它海量資料,它就吭哧吭哧地學,主要任務是「predict next token」(預測下一個詞)或者「predict next frame」(預測下一幀畫面)。目的是讓AI先學會這個世界長啥樣,各種東西有啥特徵。
探索世界(強化學習階段):光會模仿還不行,還得培養解決複雜問題的能力。比如解個奧數題、寫段複雜的程式碼,這需要「慢思考」。這時候就得上強化學習了,讓AI在不斷試錯中學會怎麼一步步把難題給解開。
歸納世界(機器自主學習階段):這是最高境界了,AI不光能解決已知問題,還能自己去發現新規律,搞點人類沒想到的創新。比如在科研領域幫科學家發現新材料、新藥物啥的。
這三個階段,與 OpenAI 提出的 AGI 五個 Level 在核心理念上不謀而合,現在整個 AI 行業的發展,基本就是照著這個劇本在推進。
在多模態,尤其是影像影片這塊,姜大昕在溝通會中多次強調一個詞:理解生成一體化。
理解生成一體化是計算機視覺領域的核心問題,對於實現 AGI 至關重要。
說白了,就是讓模型既能看懂一幅圖、一段影片是啥意思,又能根據這個理解自己創作出新的、相關的影像影片。現在很多時候是「看圖用 A 模型,畫圖用 B 模型」,跟倆部門似的,配合不起來。
他舉了個例子,比如老師在黑板上寫字,現在的 Sora 能模仿老師寫字的動作,但老師腦子裡想的是啥、接下來要寫什麼內容,這得靠「理解」。如果理解和生成是兩套系統,那模型就很難真正「懂」你,生成的玩意兒也可能不著邊際。
語言模型像 ChatGPT 在這方面已經做得不錯了,但視覺領域因為資料太複雜,這事兒還沒完全搞定。階躍星辰在這上面是持續投入,想把這個技術瓶頸給突破了。
強大的模型能力最終需要透過應用來體現價值。階躍星辰採取的是「超級模型與超級應用雙輪驅動」的策略。
在應用層面,階躍星辰將「智慧終端 Agent」作為重點發力方向。姜大昕認為,智慧終端,無論是我們口袋裡的手機、日常駕駛的汽車,還是未來可能普及的機器人,它們不僅僅是冰冷的硬體,更是「使用者感知和體驗的延伸」。
這意味著,AI 如果能與這些終端深度融合,就能更好地「理解使用者需求和任務上下文」。
比如, OPPO 旗艦 Find X8 Ultra 正式開售首發的「一鍵閃記」的功能,AI 可以智慧識別手機螢幕上的內容,為使用者生成摘要,並將碎片化的資訊歸類到不同的記憶合集。
這背後搭載的其實就是階躍星辰多模態模型,它能理解螢幕上顯示的內容,無論是圖片還是文字,使用者可以就此提問,AI不僅能回答,還能進行圖片處理,甚至幫助使用者完成一些應用內的操作,比如直接跳轉到機票預訂頁面並填好資訊。
這種合作,將大模型的能力和系統更深度融合,嵌入到使用者最高頻的手機使用場景中,選擇手機作為切入點,其價值在於手機天然的多模態互動屬性和龐大的使用者基數,為模型迭代提供了豐富的真實資料和即時反饋。
總的來說,階躍星辰的思路挺清晰:技術上瞄準 AGI,死磕多模態和理解生成一體化這些硬核問題。應用上呢,就找準智慧終端這個突破口,跟硬體廠商把場景做深做透。
這條路也不好走,但姜大昕和他的團隊看起來挺有決心。畢竟,用 AI 解決真實世界的問題,先在市場獲得使用者認可,才有機會探索 AGI 的天花板,讓我們看看階躍星辰這個多模態卷王后面還能拿出什麼新東西來。
我們正在招募夥伴
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)