
訪談丨陳彩嫻 馬曉寧
作者丨馬曉寧
編輯丨陳彩嫻
DeepSeek 以迅雷不及掩耳之勢出圈後,中國大部分的大模型團隊都被打得措手不及,只有一家公司因為底層技術和 AGI 思想路徑與 DeepSeek 相近而暫時“逃過一劫”,這家公司就是:面壁智慧。
作為中國最早的一批大模型團隊之一,面壁智慧成立於 2022 年 8 月,其創始團隊從 2021 年就主力參與北京智源人工智慧研究院的大模型專案“悟道”,訓練出多個百億、千億引數規模的大模型,併成立大模型開源社群OpenBMB,是國內最早提出“平民版大模型”、最早促進大模型開源事業的團隊之一。
但意料之外、又情理之中的是,儘管團隊技術實力出色、對 AGI 的理解深刻,其在 2022 年到 2023 年大模型浪潮剛起、國內純種大模型團隊並不多時,卻遭到冷落與誤解,未能吃到首輪紅利。
2023 年,面壁智慧在訓練出千億引數規模的基礎模型後,由於早期融資少、且在探索商業化時發現千億模型難以落地,戰略決定轉向訓練引數規模更小、算力更低、但效能更強的端側模型——雖在國內一批大模型創業團中打出差異化,但也錯過了諸如 DeepSeek V3 這樣在與 Llama 3、GPT-4 等同級別的基礎大模型上驗證“更低成本訓練更強模型”的勝利。
面壁的發展提供了大模型創業熱潮中的另一視角。當 ChatGPT 引爆市場熱情後,資本陷入對標 OpenAI 的狂熱,對強調技術創新的差異化路線反應冷淡。這種認知滯後揭示了中國科技投資的深層困境:在技術演進曲線上,相比成為先驗的引領者,資本往往成為後驗的追隨者。
2024 年,多位投資者對面壁智慧的評價是:“這個團隊的技術很好,但就是給人的感覺太陽春白雪,如果在國內做 To B 的話,我不知道他們能否有團隊去跟 B 端的客戶老大哥們勾肩搭背、抽菸喝酒。”
DeepSeek 在矽谷掀桌,以及國產動漫電影《哪吒 2》的大熱,使得 2025 年被稱為是“理想主義者的勝利”。那麼,大模型圈中的典型理想主義者面壁智慧,是否也迎來了他們所想象的勝利?
事實上,AGI 比我們想得更大,勝利的到來也或許更遙遠。
不久前,AI 科技評論也與面壁智慧的創始人、清華大學副教授劉知遠博士進行了一次深入交流,可以作為勾勒技術理想主義的一個典型畫像。在交談中,劉知遠多次引用毛主席所著的《論持久戰》來解釋他們在“征戰” AGI 路上的一些思考。他認為,AGI 的勝利需要戰略上的持久戰、戰術上的速決戰。
在劉知遠看來,大模型的技術還遠遠沒有收斂,反而是在加速前進。AGI 是一場關於“智力”的持久戰,真正的勝利不在於短期估值的高低,而在於能否實事求是地追尋理想主義。
站在 2025 年的門檻回望,面壁智慧的歷程折射出中國創新生態的複雜圖景。資本市場的認知滯後、技術路線的搖擺爭議、商業化與理想主義的碰撞,這些挑戰共同構成了中國攀登 AGI 高峰的必經之路。
以下是 AI 科技評論與劉知遠的對話全文,為方便閱讀,進行了不改變原意的文字調整。
AI 科技評論:記得 2023 年5 月採訪跟您交流時,您就提到面壁的成立初衷是做“平民版大模型”、讓 AGI 普惠。能否談談面壁的成立背景?
劉知遠:2021 年我們在智源做完第一版“悟道”模型之後就有了要商業化的想法,很重要的原因是:從技術來講,我們認為大模型已經找到了一種通用地從資料學習知識的方案,已經在邁向通用智慧了。對於接下來怎麼做,當時我有兩個判斷:
第一個判斷是 AI 已經具有商業化的能力,具有實際應用的成熟度了。
歷史上就有相似的案例,譬如說搜尋引擎:它的研究大概在上個世紀六七十年代就開始了,在相當於長的一段時間裡面,主要是由實驗室來開展研究,因為技術還不成熟,不足以去進行商業化的應用。
但是到了上個世紀 90 年代末,雅虎和 Google 這樣的公司出現,就意味著搜尋引擎技術已經具備了商業化的價值,也有了大規模應用的可能性。
在這種情況下,如果研究人員還躲在實驗室、躲在高校去做研究,那就一定不能夠站在這個領域的前沿去看問題了,因為問題已經轉移到了大規模應用層面,只有在企業才能找到最前沿的問題。
2000 年之前,搜尋引擎最前沿的技術主要是由學術界來提出的;2000 年之後,這一領域絕大部分有影響力的技術,就變成了主要是由 Google 等企業提出的。
AGI 從業者也應該看到這樣一個變化。我覺得我要有這樣的自覺性,就是前沿的問題在哪,我就要做什麼樣的事。
第二個判斷就是,大模型的技術特點已經跟之前的 AI 技術有相當大的不同。
現在的大模型是一個系統工程,要有資料、要有底層架構、要做模型設計、要做模型訓練。這樣的一個系統工程已經不是學校實驗室的學生單打獨鬥能完成的工作了。
結合這兩個判斷,在 2021 年,我們認為一定要成立一家公司,才能夠在 AGI 時代做出更大的貢獻。當時就拿到了智源和智譜的投資,在 2022 年 8 月份正式成立面壁智慧、想訓練平民版大模型。
AI 科技評論:但一開始的融資並不順利,很多 VC 不 buy in 這個觀點。
劉知遠:我們一開始在融資上確實有比較大的挑戰,最早去見投資人的時候,很多人尚不瞭解大模型是什麼東西,有什麼用處。後面從 2022 年下半年到今天,經歷了三個分水嶺,過程中我們的認知和能力也發生飛速蛻變。
第一個分水嶺就是 2022 年底 ChatGPT 出來。
我印象比較深的是,春節前後,A 股上的大模型概念股火了一把,人人都在談論 ChatGPT, 大機構挨個探尋國內大模型團隊,包括我們。
2023 年的上半年,大模型公司都在融資,業內認為大模型融資的視窗期可能就那麼一兩月的時間。而當時面壁團隊還處在非常早期的狀態,主要是實驗室的幾個學生。那個時候大家對我們最大的 concern(顧慮點)是,團隊商業化經驗不是特別豐富。這個階段我們拿到了知乎的風投,知乎 CTO 李大海也加入我們擔任 CEO,為我們補足了開辦大型公司的經驗。但當時花了比較多的時間來安排大海加入面壁的事情,商業化團隊的鋪墊,一定程度上延緩了融資的整個節奏,錯過了投資人最上頭的時刻。
現在反過來看的話,即使當時不是這些,我覺得可能也不會有大的改變,因為當時投資人更想去看國內哪個團隊的模型可以去對標 OpenAI,會把這個對標作為評價的標準。而當時我們的敘事,特別強調高效,強調以更低的成本去訓練大模型,這個事情對於投資人來講是沒有感知的。
到 2023 年的下半年我們接著去融資,大概八九月份的時候,明顯的感覺到整個市場對於大模型的態度有一些變化了:大家覺得該投的已經投了,再出手的意願就沒有那麼強烈了。等2024 年我們做出來了端側模型,在全球算是出圈了,一定程度上也加強了大家的信心,比之前順了很多。大概是因為我們做出來了一些能夠讓大家有體感的東西。
AI 科技評論:投資人當時的主要質疑點是什麼?
劉知遠:不同階段可能會有不同的質疑,可能大模型投資會有一些 Mismatch(匹配錯位)。
譬如說高效訓練。這次 DeepSeek 出圈,所有的投資人和券商都在分析什麼是 DeepSeek 取得成功的關鍵技術,比如 MoE、流水線並行、FP8 之類,但其實我們早在 2023 年初就在說我們擁有非常強大的大模型的平行計算能力、全流程的高效處理能力。
投資人他們可能也很苦,DeepSeek 做出來後、他們會比較能夠 get 到模型高效訓練的重要意義;沒做出來之前,他們就只能從人才隊伍等各個方面去研判一個團隊到底能不能投。
在兩年前,大家很難 get 到我們可以讓模型加速多少倍這件事有什麼意義、從商業上說具有什麼價值。大家的問題還是,你們這些技術到底該怎麼去商業化、怎麼賺錢,而不是想問,你們是不是像 OpenAI 那樣去推進 AGI,在 AGI 時代這些技術到底會有什麼樣的重要價值或者意義?但一些有希望的團隊,在發展早期,可能還沒什麼錢、沒什麼資源的時候,還是更需要去爭取理解和支援。
AI 科技評論:現在(匹配錯位)這個問題被糾正了嗎?
劉知遠:客觀上來講,即使是在學術界,絕大部分人其實也不能把握技術發展的脈絡或者趨勢,會更相信眼前已經看到的這些現狀。但高價值的人、高價值的團隊和產品,會透過時間的檢驗,最終收穫到能夠跟他們相匹配的一個價值。
AI 科技評論:面壁不在“大模型六小虎”之中,會遺憾嗎?
劉知遠:從融資估值排位看,顯然就進不去了(笑)。
AI 科技評論:DeepSeek也不屬於六小虎。
劉知遠:對。DeepSeek 出來後,我最近參加一些政府與學校的座談會,大家也會討論為什麼“DeepSeek”不是六小虎、或者大公司做出來的?
但是我說實話,既然是風險投資,就要允許出錯,允許有各種各樣的探索,也不能因為 DeepSeek 火了就覺得六小虎都不行。也許他們過兩三個月也會做出一個特別厲害的東西。我覺得還是要保持寬容的心態。中國未來一定不會只有 DeepSeek 這一家創新的公司,所以我覺得不要讓大家有那麼大的壓力,要互相學習、不斷進步。
譬如2023 年,很多人會覺得 ChatGPT 就應該是人工智慧的最終形態了,只要國內有公司能夠有實力把這樣的一個模型給做出來,那它就是可以被投的——實際上並非如此。
AI 科技評論:那你覺得你們的競爭優勢是什麼?
劉知遠:我在很多場合都強調過,我們的競爭優勢就是,我們認為大模型技術還在快速地演進,最先進的技術要麼是我們做出來,要麼是別人做出來之後、我們能夠把技術快速地融合到我們的體系中。
我們會覺得,有一個具有創新能力的團隊,能夠持續不斷地站在最前沿,看看未來的路到底該怎麼走,這是我們的優勢。但是這點並不被多數人 buy in,一些人會覺得大模型只需要足夠多的錢、買到足夠多的算力,就能做出來,這顯然是不對的。
AI 科技評論:你們早期也訓練過千億大模型,但後來是因為融資不夠、才轉去訓端側小模型的嗎?
劉知遠:2023 年下半年,我們做出了一個 GPT-3.5 級別的千億大模型,但之後決定去做端側模型。這是因為根據我當時的研判,國內的這些一線大模型團隊,只要他們願意,那麼他們一定是可以在未來的半年之內,也就是2024 年的 4 ~ 6 月份之間實現 GPT-4 水平的模型。後來事實上也是如此。
沿著這個趨勢,就一定會出現價格戰。果然,DeepSeek 釋出 V2 後 API 的價格非常低,其他團隊不得不加入,進一步地壓縮了所有團隊的盈利空間。所以這條路本身是有問題的——指望 OpenAI 做出一個東西,然後我們在國內復現,從而佔據國內 OpenAI 的生態位,這個邏輯是不通的,主要原因有幾個:
一是國內能復現的團隊其實非常多,所以一定會導致惡性競爭;二是我們認為更重要的是前沿技術的原始創新,確保團隊永遠站在 AGI 技術發展的最前沿才是最關鍵的。大模型的技術其實還遠遠沒有收斂,反而是在加速前進,所以這個時候應該是要花更多的精力,去組建一個高效協同的大模型團隊,這也是我們這兩年的主旋律。
作為前沿技術導向的創業團隊,我們的優勢在創新,不應該去做重複性的工作。我們內部就總結了兩句話,一個是叫“走先人一步的路”,一個是叫“打以少勝多的仗”,就是得考慮多幾步,確保每一場仗都能夠打贏。
AI 科技評論:最早支援你們的資本都是什麼型別、什麼風格的?
劉知遠:我覺得我們的投資人都會比較務實,跟我們的氣質都比較像。我們不會去講一個特別讓大家心潮澎湃的故事,而是會去說如何一步一步地抵達 AGI。
這個務實不是實用主義的意思,而是說他們會比較實事求是地考慮相關的問題。不論是知乎、華為哈勃這樣的公司投資者,還是春華資本這樣的財務投資方,都有類似的特點。
他們會更加務實地去考慮大模型往前走的這麼一小步需要什麼。模型提供的智力,就跟晶片提供的算力、電源提供的電力一樣,是未來人類社會的基本需求。我們就是要把模型做得整合度越來越高、成本越來越低、算力越來越強,讓更多的人能夠用得上這種高質量的智力。
朱嘯虎說可能接下來就要進入到應用的階段了,但我覺得還遠遠沒有。應用當然值得做,但我會覺得, AGI 技術的收斂還遠遠沒有完成,至少需要 3 到 5 年的時間,才能讓我們把模型構造得質量足夠高,成本足夠低,真正讓每個人都能用得起。這應該是未來的一個發展方向。
我們不能夠一會兒相信這樣、一會兒相信那樣,還是要有戰略定力在。
AI 科技評論:怎樣理解戰略定力?
劉知遠:這個寒假我把毛主席的《論持久戰》又仔細看了一遍。我覺得,也許每一場仗你可以有非常多不同的打法,但你的戰略應該是不能夠有太大的變動的,AGI 就是如此。
一會今天是這樣,一會明天是那樣,那就說明你對這件事情其實還沒想透、還沒想明白。就像《論持久戰》裡說的,解放戰爭時期,有些人今天贏了一場仗就覺得中國要大勝、輸了一場仗覺得中國要完了。這些觀點在很多領域都是存在的。
AI 科技評論:既然你們之前已經做出了一個千億模型,最終因為資源問題選擇了端側模型這樣一個更具差異化的道路。如果面壁有更多的資源,你會考慮重新訓練一個大模型,去驗證你們的高效能力和目前的技術路線嗎?
劉知遠:跟 DeepSeek 對照一下,如果回到 2023 年下半年,我們有足夠多的算力、足夠多的資源,我們要去做大模型,那我們一定是要去做一個足夠高效的大模型。
在那麼多團隊都能夠實現 GPT-4 水平的模型能力的前提下,我們要做差異化的競爭,就是把這個模型做得足夠小、足夠高效,讓它的成本足夠低。另一方面,這個模型要用在哪些特殊的場景,擁有哪些特殊的能力上,我們跟其他的模型要有截然不同的區別。
如果做的都是一樣的模型,顯然就是不對的。學我者生,像我者死。到了大模型階段,不能簡單地靠資源、靠鋪量、靠投放去參與競爭,這麼做沒辦法取得最終的勝利。
AI 科技評論:那做出一樣模型的這些公司,他們是戰略上誤判,還是不夠實事求是?
劉知遠:我倒是覺得不是什麼戰略上的誤判,只是對未來沒有多想幾步,或者多想幾步之後仍然做出的當時最優決策。這個是一個很自然的決定,對吧?因為 OpenAI 就是這麼做的。但那麼多家做出來之後,事情一直在變化,仍然會面臨一些現實的新局面(如價格戰)。
AI 科技評論:像面壁這樣做端側模型的公司,能迎來像 DeepSeek 這樣的大爆發嗎?端雲兩條路,最終能走向殊途同歸嗎?
劉知遠:不管是做端側模型,還是做雲側更大體量的模型,技術體系基本上是一致的,都是要做資料治理、架構設計、學習的演算法等。就像是端側晶片和伺服器晶片,光刻機體系是一致的一樣。我們做端側模型,對相關演算法創新、資料治理會提出更高的要求,所以端側模型應該更難做。
邁向 AGI 時代,就意味著全社會的算力就是分散式的,既有端側算力,又有云側算力。如果我們有更多的資源和支援,顯然我們也應該去佈局伺服器端的人工智慧。我們要探索出一條把雲側和端側的人工智更好協同的道路。
AI 科技評論:在過去兩年,投資人對你們商業化能力的質疑有改善了嗎?
劉知遠:大海加入之後,2023 年的下半年,由大海來牽頭去進行融資後,這個面的質疑就幾乎沒有了。最近這半年我們在端側上做得比較好,現在各大汽車廠商都有非常多的承諾,感覺大家比較認可(我們)。
AI 科技評論:六小虎中,你覺得哪一家大模型公司能活到最後?
劉知遠:雖然剛才說了大模型投資的一些問題,但我覺得過去的兩年時間,我自己也收穫非常大。回顧兩年前,如果我是投資人,可能我也不會投這個團隊,這兩年我們自主成長還是挺大的。
我剛才提到了毛主席的《論持久戰》,文中的觀點是,因為我方幅員遼闊,但是相對弱小,所以中國的抗日戰爭一定是一個內線防禦的持久戰。我們現在判斷 AGI 的到來,可能需要未來五年到十年的時間,也是一個持久戰。
戰略上是持久戰,但是在戰術上,具體到打每一場仗、每一個具體的戰役,則要去主動進攻,包圍敵人,打出外線進攻的速決戰。要主動選擇戰場和時間,把區域性的敵人以絕地的優勢殲滅掉。這裡的戰略和戰術恰恰是辯證的相對關係。
對應到我們創業上,面壁之前、包括現在來說還相對比較弱,資源比較少,那我們怎麼邁向AGI?我不可能現在哭著求別人,說因為我有 AGI 的夢想,所以你們一定要來支援我們。大家投或不投,都是正常的,我們還是要堅持實現我們的夢想。這就跟抗日戰爭一樣,是一個持久戰的過程。我們要做到,打的每一場仗,都是一個主動進攻,做到速決,做到殲滅。
也就是說,我們選擇了端側,那我們就一定是在端側上迅速打出我們的聲音,得到進一步的壯大,然後再去打下一場仗。透過一場接一場戰術上的勝利,最終贏得戰略上的成功。
如果融資多,如果有一場仗打得不好,其實會有非常大的影響。我們這個小團隊當然更不容易,但是隻要打得漂亮,就可以贏得更多的資源,進一步發展壯大。如果我們處處防禦,處處被動,顯然也迎不來最終的勝利。
AI 科技評論:抗日戰爭是有一個很明確的目標,就是把日本侵略者趕出中國,這就是勝利的終點。對您來說 AGI 勝利的終點在哪?
劉知遠:2021 年,當時我們在智源的支援下去孵化面壁的時候,我們就搞了一個開源社群叫 OpenBMB。當時我們給 OpenBMB 提出的 Slogan 就是,讓大模型飛入千家萬戶。經過這兩三年的探索和發展,我們進一步豐富了這個內涵,我們要“智周萬物”,把大模型放在距離使用者最近的地方。
我們最核心的精神沒有變化,就是我們認為 AGI 帶來的智慧革命,其內在要求就是要讓這個大模型質量足夠高、成本足夠低,能夠讓每個人用得上、用得起大模型。這是我們的一個基本判斷。
因為智慧革命還沒到來,所以我們很難預期它到底會對整個社會形態產生什麼樣的影響,但是我們可以從歷史上大概推演出一點遠景。這個歷史就是過去 80 年,我們整個人類社會所經歷的資訊革命歷史。
上個世紀 40 年代計算機剛剛發明的時候,一臺大型計算機重 2.7 噸,一間屋子才能放得下。由於構造這個大型機的成本極高,一般人根本用不上、也用不起,只有國家級別才能夠裝備得了這樣的一個大型機。當時的 IBM 就是大型機的巨頭。IBM 的董事長 Watson 曾說過,這個世界上不需要超過五臺計算機,原因就是當時大型機實在太昂貴,也只能在非常少的重要場合發揮作用。難道我們會說,大型機的出現,標誌著資訊革命的出現嗎?顯然不會。
一場革命,一定是讓這個社會上的每個人都能感知到革命的到來,這才是真正的革命。所以我們覺得,資訊革命的標誌應該是上個世紀 80 年代個人計算機的出現,以及智慧手機的普及,能夠讓我們每個人都用得上、用得起這些廉價的高質量算力。
以此為參照來看的話,我們會發現,英偉達也好、OpenAI 也好,階段性對大模型的判斷,就是要越訓越大,越訓越強,我覺得它大概的歷史地位就跟當年的大型機一樣。今天我們也需要大型機,每個國家都會有超級計算機來做天氣預報、做科學計算,但這不是每個人都需要的。
我們需要那種超級大的大模型,智力足夠強,甚至能擁有超人的智力。但是智慧革命的標誌應該是,我們能夠建立起足夠廉價的、足夠高質量的、每個人專屬的 AI 模型。
也許有人會認為,端側模型的市場份額不會很大,所以端側模型顯得不那麼重要。真的嗎?我並不這麼認為,但我也不會嘗試用沒實現的東西說服他們。
DeepSeek 給我們帶來的啟示就是,只有這個東西做出來了,被大家看到了,大家才能感知到它的革命性。所以我們要做的就是透過一場又一場的勝利,把這件事情做出來,讓大家真正感受到我們內心的願景。
AI 科技評論:從大型機到小型機,你覺得這個過程會需要多久?
劉知遠:我覺得 AI 的發展跟計算機的發展一樣,一開始肯定是大型機,大型機做出來後,再開始做小型化,晶片做得越來越小、算力越來越強。大型機發展到了一定的階段之後,開始有人去考慮商業化到底該怎麼做的時候,慢慢找到了做 PC(個人電腦)的路子。有一本書叫《矽谷之火》, 就是講 80 年代的這段故事。
從技術路徑上來講,大模型肯定是某一些能力得先有人能做出來、然後我們再去考慮它的小型化。DeepSeek V3 就是對 GPT-4 能力的一個復現,它做了GPT-4的效果,但是算力要低 1/10。這顯然是大模型“小型化”的一個表現,對應的 R1 也是非常出圈。
OpenAI 釋出的 o1 也可以看成是高階推理的大型機,未來一定是要小型化,變成低成本、高質量的模型。整個發展路徑在我來看非常清晰。
我提過一個叫“Densing Law”的概念,類似於大模型領域的“摩爾定律”。我們發現,從 2023 年到 2024 年這兩年,全球開源的大模型能力密度大概是每 100 天翻一倍。就是說,如果當前我訓練出一個模型、它具備 GPT-4 的水平能力,那麼過了 100 天之後,只需要一半的引數我就可以實現這個能力。
去年 12 月初我們釋出了 Densing Law,現在去看 DeepSeek V3 就是這個定律的完美證明。2024年4月18日釋出的 Llama 3-405B 是 4000 億引數,如果按照 Densing Law 估算,經過 3 個週期(即300天)就可以用 500億 啟用引數實現該能力,而 DeepSeekV3 釋出於2024年12月底,全部引數 6700 億採用 MOE 架構啟用引數為 370億。
AI 科技評論:這個春節 DeepSeek 贏得了一場很漂亮的戰役,我們接下來要贏得什麼戰役?
劉知遠:其實 DeepSeek 這場戰役還是一場比較大的戰役,因為它的投入其實還是非常高的,模型訓練有幾千萬人民幣的投入,更不用說前期的人力、實驗算力的投入,肯定是要十倍預期,所以我覺得這是一場幾個億的小型戰爭。
面壁在 2024 年已經打過幾場比較漂亮的戰鬥,我們釋出了 MiniCPM、叫“小鋼炮”,在國內外的聲譽很高。去年的《經濟學人》和最近的《MIT Technology Review》,都提到我們的模型以及我們的團隊。我覺得從我們當前資源的角度來看,這場仗打得非常好。
接下來要打類似於 DeepSeek 這樣的仗,我覺得還需要透過更多的戰鬥勝利,不斷擴大我們的影響力,積累更多的資源。所以我們並不謀求馬上去得到這樣一場大勝,這個目標比較遠大。現在面壁要把當前的資源做到極致利用,實事求是地要求自己。
DeepSeek 的成功對於大模型創業團隊是個巨大的鼓舞,當一定的資源、優秀的青年人才團隊、AGI使命感,賦能於一個正確的領導者,賦能於一個正確的戰略方向、一件正確的事,可以爆發出驚人的威力。我們的內在自我要求,是透過對大模型本質規律的掌握,去成為那個正確團隊、正確方向,做正確的事。世界的走向浩浩湯湯,國家也在投入大量的基金,我們正值一個重大的歷史機遇,一旦我們能夠獲得更多的資源,我們肯定能夠更完備地組建大模型團隊,瞄著 AGI 需要我們完成的階段性目標進行攻堅,做出我們的貢獻。
這次 DeepSeek R1 做出的高階推理能力本身就是邁向 AGI 的一個重要能力,此外還需要很多種能力,比如定製模態具身、AI 終端的群體智慧等等,還有這麼多仗要打,所以我們還是覺得很有信心。
AI 科技評論:2025 年才剛開始,這一波熱潮之後,你覺得國內的大模型,會往哪幾個方向去發展?面壁想要在當中扮演一個什麼樣的推動力量?
劉知遠:很難說都會在 2025 年實現,但是我覺得肯定還是會有很多值得期待的,一個是高階推理,肯定會在 2025 年持續地去改進。DeepSeek R1 的技術方案以及工程化,在 2025 年還會有很多可以改進的地方,可以讓它更加高效。
高階推理會成為一個非常重要的話題,但是民眾以及投資的興趣可以會發生快速的衰減,就像 ChatGPT 剛出來的時候,大家也都為之一振,覺得非常 Amazing,但是隻過了半年,大家就已經習以為常,覺得沒什麼大不了的,特別是很多團隊迅速跟上了之後。所以如果只看 2025 年的話,我覺得大機率在 6 月前後,國內會有非常多的團隊都能做到 R1 的水平,我們也會在端側實現這個能力。
高階推理之後,有多模態、有具身、有群體智慧,有小型化、有終端智慧、底層算力和硬體的深度融合等,依次為支撐產生各種各樣的創新應用,這是未來兩到三年的主旋律。
今年哪個點上會有突破,這件事情可能很難預期,但是兩到三年我會覺得還是非常明確的。我們團隊肯定堅持要做的就是模型的小型化、高效化、低成本,別人用 500 億引數才能做的模型,我們就要努力用 100 億體量之內做出來,爭取儘快能放在終端上跑起來,讓他真正地離使用者更近,這是我們的一個基本思維方式。
AI 科技評論:以一個人工智慧老師的身份角色,你怎麼看人才的識別、人才的發展培養,並且將之和整個公司的執行緊密配合起來呢?
劉知遠:還是回到毛主席的《論持久戰》上來。其實戰略的重要意義就是要讓大家相信,戰略是用來統一思想的。我們相信抗日戰爭是一個透過持久戰可以達成的目標,這是我們統一全國人民思想的重要目標,軍民全體都為之而奮鬥努力,大家才能更加主動把每一場仗都打好。
我們以 AGI 為目標,去建立一家公司,顯然是要有一個非常清晰的、明確的、持久的戰略意圖。我們提到的 AI 終端、Densing Law、對端側大模型的預期、以及資訊革命和智慧革命的類比,其實都是希望能夠讓整個團隊有一個清晰的戰略共識。只有這樣,大家才能達到高度協同,將來去打每一個具體的仗的時候,他就會知道,這場仗的目的是什麼,有什麼意義。如果我們在戰略上反覆橫跳,不僅投資人無所適從,整個團隊都會人心渙散。
AGI 和光刻機一樣,是一個非常複雜的系統工具,需要大團隊協作的組織模式,光靠組織創新可能很難做到,創業公司還是得讓大家思想上非常統一,目標一致,才能做好協同的工作。
AI科技評論:那這些人才是哪來的?應該從大廠挖,還是自己培養?
劉知遠:我是從 2013 年開始帶研究生,到今天應該差不多十年的時間了。這麼多年來,我最大的感受就是,人的潛力是非常非常巨大的。如果你讓他掌握了一些知識,讓他建立了一些自信,給他找到了一個讓他發自內心幸福的目標,那麼他的這個潛力一旦迸發出來,力量是非常非常大的。
我認為,如果是從大廠去挖那麼兩三個人,這兩三個人只是見過的東西多一點、能力好像稍微出眾一點,而本身在目標上沒有那麼地堅定,不把 AGI 作為他的奮鬥目標,那他也沒有那麼強的動力去做相關的工作。所以我不覺得我們應該把主要精力放在挖人上。
我們要做的就是把大家的潛力挖掘出來,把動力激發出來,一旦激發出來,他們的能力就會發生裂變,像原子彈一樣迸發出非常強大的能量。



更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
