DeepSeek反思潮:AGI既被重新審視,又被持續低估

不斷的攻守異位,要麼是實力相當,要麼是高度不確定性。
作者丨陳彩嫻
2 月很有意思。
1
DeepSeek 反思潮
在 DeepSeek 的集體反思潮中,無論是大廠內部的“AGI 創業團隊”、還是 AGI 的明星創業公司,都進行了戰略調整。很顯然,DeepSeek 的暴擊讓整個行業都進行了一次深刻的反思,值得注意的幾個變化是:
首先,大模型創業公司重新將技術突破提升到一個新的高度、超越產品更新成為公司戰略發展的優先順序
據近日與張予彤接觸過的 VC 反饋,DeepSeek 不花一分錢投流的崛起啟示了 AGI 的技術高度,也讓 Moonshot 反思了過去一年類網際網路打法、過度重視產品投流的策略侷限性。在未來的一年,Moonshot 要將基礎模型的突破作為重點,將更多資源投到技術而非研發上。
事實上,這不僅僅是月之暗面的結論,也是這波 AGI 創業潮中卡技術生態位的大模型公司的普遍轉變。與此相對應的,是產品團隊的資源比重下降,因為 DeepSeek 的成功已經側面證明了:AGI 時代可能不需要產品經理,也不需要投流,只要技術實力提升後就會有使用者增長。
2024 年的投流大戰,以 DeepSeek 不花一分錢、DAU 最高時達 4000 萬落下帷幕,而受創最重的自然是投流團隊,因為錢相當於白花了。投流越多、傷害越大,如 Moonshot;投流越少,傷害越小,如 MiniMax。
據 AI 科技評論獲悉,MiniMax 前產品一號位離職的原因之一,就是曾與創始人在投流上發生分歧。MiniMax 的組織架構之前是網際網路打法,按照不同產品進行分組,產品團隊一度達到 200 人,但 2024 年年中開始就一直在調整產品團隊,接下來可能會進一步裁減產品人員。
其次,是位元組與騰訊的攻守異位,以及位元組大模型技術團隊的架構調整。
過去一週,騰訊元寶接入 DeepSeek 後在中國區蘋果免費 APP 下載排行榜上超過豆包,排名第二、僅次於 DeepSeek。在“DeepSeek+”的風潮下,相比百度、阿里、位元組等有技術包袱的大廠來說,騰訊的元寶與微信等應用迅速抓住了機會,毫無負擔地接入了 DeepSeek,一下子由過去兩年的被動防守轉為主動出擊,變守為攻,扭轉了局勢。
業內周知,在過去的兩年,騰訊在大模型、AIGC 相關技術與產品上雖然努力追趕,但始終不溫不火。又由於將算力與人才等資源更多投入基礎模型,文生影片等方向的研究資源被影響,團隊核心骨幹從騰訊流向快手、位元組等團隊。可以說,DeepSeek 救了騰訊大模型一把。
也因此,有業內人士認為:基礎模型的研究最終只需要 DeepSeek 一家即可。隨之引發的,是近日傳出的大模型公司有老股東開始張羅退股的聲音,認為“智譜、階躍甚至位元組、阿里等公司的大模型都沒戲了”。——對於這種聲音,筆者不敢苟同,認為應該持續觀望。
有一個比喻能很好地形容當前中國大模型創業潮的格局:
一個富二代學霸做了一份接近滿分的卷子,並把答案公佈了出來。但這份答案的學習有一定的資源成本與面子成本,另一個能承擔起這兩種成本的富二代學渣直接拿來抄了、也考了接近滿分的成績。現在留下一群從農村透過贊助入學、平時考七八十分的學生,以及同是富二代但努力方向錯了的學生,不知所措。
他們終將認識到,開放社會的競爭不一定公平,但一定殘酷。打破這種結構性困境很難,或許需要“一命二運三風水四積陰德五讀書”,但他們沒有其他選擇。
回到現實,位元組的大模型團隊進行調整,也是因為 AGI 的競爭格局發生了變化——DeepSeek 衝出來之前,業內幾乎所有人都在誇位元組的豆包,豆包也上升十分迅猛,給 kimi 造成極大的圍剿;但 DeepSeek 霸屏整個春節後,位元組意識到,AGI 仍是一個高度的果實,必須換一個更能打的將領。
據 AI 科技評論驗證,此前位元組的基礎模型技術研究由朱文佳帶領,春節後進行了一次大的人員調整,基礎模型技術研發的一號位換成了由吳永輝,黃文灝等在 2024 年新加入的大模型骨幹都向吳永輝彙報,而朱文佳則轉向了模型應用一號位,吳永輝與朱文佳都向梁汝波彙報。
經 AI 科技評論梳理,2023 年位元組剛組建大模型團隊時,團隊人員主要來自位元組內部,包括搜尋、抖音、西瓜、TikTok 等等多條知名業務線,在位元組過往產品上有過大大小小的勝仗,朱文佳下面各個小組中一號位人選從外面招入的人才並不多。
從 2024 年年中開始,越來越多 AGI 方向的知名人才被招入位元組,團隊開始換血。據知情人士分析,這背後的原因是:朱文佳等人來自搜推廣技術背景,而大模型是新的正規化,兩者不一定適合。位元組、MiniMax 等公司此前低估 RL 技術路線就是一個例證。吳永輝代替朱文佳成為基礎模型研究一號位,意味著位元組換血的決心更徹底。
吳永輝此前在谷歌的職級僅次於 Jeff Dean,是谷歌 Gemini 的核心貢獻者之一。而據幾位矽谷華人的信源,吳永輝擅長模型工程。谷歌自 2017 年釋出 Transformer 後一直在大模型賽道上持續創新,且谷歌研究大模型一直是從底層框架、算力到上層演算法的系統性推進,從知識面上吳永輝確更適合大模型技術一號位的角色。(谷歌 Gemini 是否被低估?歡迎感興趣的讀者新增作者微信 Fiona190913 交流)
據知情人士透露,朱文佳此前在帶領位元組大模型技術研發時,在人才任用上更重用以往一起打過仗的親信喬木等人,同時在大模型基礎研究的創新 idea 採用上不夠開放。這背後的邏輯不難理解:AGI 的技術有極高不確定性、用熟悉的隊友能減少溝通成本。如果 AGI 是一個很低的桃子,“錢多人傻”的打法也許可以,但事實或許並非如此。
據瞭解,新加入位元組的技術人員曾向朱文佳提過諸如 SPPO 等強化學習方向、火星最佳化器等高效訓練方向的技術方案,“一些方案明明自己驗證了 work、但被朱文佳移交給身邊的人驗證後被反饋不 work 而棄掉”。此前位元組內部賽馬文生影片,其他團隊賽贏,但後續成果被朱文佳劃到了 Seed 團隊。(更多位元組大模型內部的研究細節,歡迎天街作者微信 Fiona190913 交流)
大模型是一項有門檻的創新技術,無論在大廠還是創業公司,實際上都需要創業者的心態。第一批低估 AGI 的人已經被摁倒,但並非所有人都吸取了教訓。
2
AGI 的壁壘在哪?
“演算法是沒有壁壘的。”一位大模型 VC 這樣評論道。與此同時,還有相似的聲音:“DeepSeek 現象只是曇花一現,過 6 個月就會被追上”,以及“大模型創業公司必然會死,最後贏家只有 DeepSeek 與大廠,你看騰訊元寶”。
筆者認為,在下論斷之前,首先要回答一個問題:DeepSeek 已經實現終極 AGI 了嗎?答案顯然是否定的,即使是 DeepSeek 官方都承認,R1 模型仍有一些致命缺陷,比如通用能力不足、語言混淆、提示詞敏感以及軟體工程能力不足。
如果這個問題達成了共識,那麼我們就要思考下一層:
第一,DeepSeek 是不是一定能解決 AGI 的所有技術問題
第二,DeepSeek 是不是隻需一家之力就能實現終極 AGI
第三,中國是不是隻有 DeepSeek 一家有實力解決 AGI 的各個技術問題?
同樣以騰訊元寶為例。雖然元寶接入 DeepSeek 後可以贏得一時的勝利,但沒有人能保證 DeepSeek 永遠滿分。如果有一天 DeepSeek 不開卷、競爭的規則被改寫,又將攻守異位。
對於上述問題,筆者均持懷疑態度,原因很簡單:DeepSeek 並非聚集了中國乃至全球所有的 AGI 技術人才。即使曾經明星如雲的 OpenAI,也因為2023、2024 年經歷了大批核心人才出走,發展受阻。
關於 AGI,如果不將其當成只是 DeepSeek 一家的責任,而是作為整個 AI 行業的必然終局,那麼就不難有一種樸素的感覺:AGI 的大航海,需要的不只是一個“DeepSeek”,也不會只有一個“DeepSeek”。AGI 是一個行業,而不是一個產品。
在 2 月的交流中,筆者總結,造成 AGI 從業者這種“既重視又低估”的矛盾心理的一個重要原因,或許是網際網路思維的慣性
經歷過網際網路大戰的從業者向 AI 科技評論舉例,“網際網路產品就是競爭到最後往往就是隻有一家勝出,比如出行大戰、3Q 大戰等等。”但筆者認為,這種類比不太恰當,因為網際網路產品的技術如搜推廣從谷歌開始、再到國內時,大體的技術天花板已經確定,而 DeepSeek 證明了 AGI 的天花板比 OpenAI 所取得的成績還高。
與 AGI 或大模型能在同一個層面類比的技術分支,或許用自動駕駛的 L4、英偉達晶片等高難度的技術來類比更合適。雖然 L4 至今沒有實現,但自動駕駛技術從 L2 到 L4 的過程中曾衍生了不同維度的產品商業化(如掃地機器人),同樣,AGI 也是一個逐步取得勝利、逐步催生商業技術產品的過程。
有些團隊本就不具備競爭 AGI 的技術實力,但這並不能推斷出“DeepSeek 是唯一能競爭 AGI 的創業團隊”或“中國只需要一家 AGI 公司”的結論。哪怕是海外的各家基礎模型,也在能力上各有分工,如 GPT 更擅長聽指令、Claude 更擅長程式碼。
再回顧更大的行業規律:如果說搜廣推技術由谷歌開啟、位元組抖音推至巔峰,那麼大模型技術由 OpenAI 開啟,由將由誰推至巔峰?網際網路時代經歷了 20 年才得出答案、中間也經歷了許多故事,那麼 AGI 時代也不可能只在 2 年內驗證最初的贏家與最後的贏家
那麼,AGI 的壁壘在哪?
筆者認為,AGI 的壁壘實際是:演算法的優勢、技術的創新雖然無法構成堅不可摧的壁壘,但可以贏得時間差
以月之暗面為例。事實上,Moonshot 與 DeepSeek 都是在 2023 年的上半年成立、前後相差只有一個月。
在 2021 年智源的“悟道”大模型專案中,楊植麟也是悟道 2.0 大模型的核心開發者之一,從底層 Transformer 到上層大模型的演算法訓練都有完整、系統的研究背書。相比之下,DeepSeek 創始團隊、包括梁文鋒雖是計算機專業背景,但在 NLP、Transformer 與預訓練等大模型的關鍵技術上與 Moonshot 團隊必然存在技術學習的時間差
如果以 Moonshot 在成立時就具備訓練千億大模型的能力開始算起,到 DeepSeek 在 2024 年 5 月釋出 V2,那麼這個時間差粗略計算大約是 1 年;如果嚴格考慮 V2 訓練成本大幅降低的研發時間,這個時間差也至少是 6 個月以上。
但由於 Moonshot 在過去兩年更重視產品增長、而非基礎模型的底層技術創新,Moonshot 與 DeepSeek 的基礎模型時間差也從 2023 年“DeepSeek 至少比 Moonshot 落後半年”變成了 2025 年“Moonshot 至少比 DeepSeek 落後 XXX 年”。在網際網路思維的過度指導下,前後相減,Moonshot 至少失去了一年的優勢,主動變被動。
據知情人士透露,DeepSeek 內部計劃今年 3 月釋出 V3.5,6 月之前釋出 V4。換言之,假設其他團隊的基礎模型能在 6 月趕上 V3 與 R1,作為先行者,DeepSeek 已經利用時間差贏得了領先的技術研發期,以及這半年內的生態護城河。模型的效果容易提升,但生態不容易割據。
是坐享其成,還是參與競爭,亦或看清局勢、早早轉向自身的優勢所在,不容易判斷。儘管 DeepSeek 當前風頭正盛,但 AGI 仍然是一個掛在高處的果子,需要持續的底層技術創新
在跋涉的過程中,一定會有人退出,無論是 VC 也好、創業者也好、技術人員也好,但無論如何,這條路上不會只有 DeepSeek,也希望不會只有 DeepSeek。
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
近期熱門文章

相關文章