對話中國信通院魏凱:AI下半場,大模型要少說話,多做事

世界上最好的模型,中國有6個左右,美國有4個。
|《中國企業家》記者 閆俊文
編輯|張曉迪
頭圖來源|受訪者
今年2月DeepSeek爆火,震驚國內外。實際上,在此之前,中國資訊通訊研究院(下稱:中國信通院)的大模型評測團隊就觀察到國內模型效能迅速提升的勢頭,他們當中就包括中國信通院人工智慧研究所所長魏凱。
魏凱說:“2024年一年,國內包括DeepSeek在內的多個大模型團隊,一直從多角度努力,不斷提升模型效能,基本上每個月都能看到新的進展。在我們的測試中,DeepSeek在2024年4月的模型效能排名還比較靠後,8月的版本已經是TOP10裡的玩家了,到了10月的版本已經是前幾名了,12月釋出的DeepSeek-V3成為當時基礎能力第一名的模型,而且是開源的,非常了不起。”
中國信通院是工業和資訊化部直屬科研事業單位,在人工智慧領域承擔決策支撐、新技術研究、標準研製、檢驗檢測、諮詢服務和國際合作等任務。2023年,魏凱帶領團隊推出“方升”大模型基準測試體系,依託“人工智慧關鍵技術與應用評測部重點實驗室”,制定測試標準,建設測試平臺和資料集,定期對國內外大模型進行測試,目前已經構建了近700萬條測試資料集。
“方升”是戰國時期的度量衡標準器,也是現存最早的度量衡標準器。魏凱說:“現在國內外大模型基準測試很多,但缺乏標準化的測試方法和體系,刷榜作弊也時有發生。我們推出‘方升’,就是希望能夠推動大模型基準測試的標準化。”
2024年底,工業和資訊化部成立人工智慧標準化技術委員會,魏凱任秘書長,主持日常工作。
6月底,《中國企業家》專訪了魏凱,作為資深專家,他對大模型以及當前最火的Agent有獨特的看法,以下是內容要點:
1.一些公司放棄了預訓練,轉向後訓練與智慧體,怎麼把大模型能力用好,這部分創業或投入會越來越多。
2.一個真正的人工智慧應用軟體,它的組成部分有大模型,有資料庫、知識庫以及各種呼叫工具,並不只是單純依靠模型本身。
3.大模型是一個作業系統,Agent就是它的應用程式。
4.為什麼現在Agent有創業機會,它能讓提示詞明白人的意圖,Manus本質上是一堆提示詞,它背後沒有模型,Cursor也是這樣。
5.擁有海量C端使用者對模型能力提升的貢獻有限,超級APP只有很淺的資料,大量資料不在APP上,而在行業沉澱的知識中。
6.外界低估了谷歌,Transformer、MoE、蒸餾等技術都是谷歌最早提出的。
7.到了AI下半場,大模型要精簡輸出資訊,甚至輸出資訊不是主要目的,主要是把活幹好。少說話,多做事,是大模型從生成式(Generative)AI走向代理型(Agentic)AI的主要目標。
以下是訪談的內容詳情(有刪減):

DeepSeek一直在最佳化
《中國企業家》:從中國信通院的測試看,國內哪些模型的表現更好一些?
魏凱:根據我們過去一年的測試,通義千問、DeepSeek、豆包、混元、文心等模型表現一直比較好。我們也會測OpenAI、Anthropic、谷歌的模型,他們的表現也非常優異。最新測試看,基礎模型TOP10中,中國的模型大概是6個左右,美國有4個。
但第一名經常變,去年12月DeepSeek是最好的大模型,春節之後,千問成了第一名,但沒多久,OpenAI又上來了,緊接著,谷歌Gemini也追上來了。
來源:AI生成
我們觀察到一個現象,最近大家更新的頻率越來越快,導致TOP1的模型在那個位置待的時間越來越短了。近半年來基礎模型的更新頻繁,效能上你追我趕,排名經常輪動,但歷次榜單中總是這幾個模型的新版處在榜單前列。
《中國企業家》:有人說大模型成了海鮮市場,保質期可能只有3個月。
魏凱:現在可能不到3個月,現在十幾天就會變化。去年5月,OpenAI的GPT-4o是最好的模型,它在第一名的位置上保持了200多天的紀錄。但現在,排名十幾天就會變一次,競爭特別激烈。
這也是為什麼現在大模型玩家越來越少了,因為每次訓練至少要幾百萬美元,保鮮期卻很短,你訓完以後,再過幾天,又要接著訓,所以,支撐基礎大模型創新,必須要有雄厚的資源保障。
《中國企業家》:DeepSeek釋出的R1-0528版本強調後訓練,這是不是一種趨勢?有一些明星模型公司不做預訓練了,轉向了後訓練。
魏凱:不管是後訓練還是預訓練,它都是訓練階段。對下游應用企業來說,會越來越少的參與到訓練環節,一些公司可能會做一些微調,但隨著基座模型能力快速迭代,做微調的使用者企業也變少了。對廣大使用者側的企業來說,如何透過提示詞工程、檢索增強、工作流等工程化方法,把大模型能力充分激發出來,開發針對特定場景的智慧體,變得越來越重要了。圍繞這方面需求的創新創業機會,也會越來越多。
《中國企業家》:同樣的大模型,能不能用好差別也很大?
魏凱:你向大模型提的問題好壞決定了它回答的質量的高低,我們可能都會有這樣的直觀體驗,所以寫提示詞也是有技術含量的。在提示詞之上,又加上了工作流,加上Agent,你看Manus和Cursor(AI程式設計智慧體公司),他們就不做基礎模型,就是呼叫別人的。基於別人的大模型,開發出高水平的智慧體,技術含量也會高,而這還並不需要重投入。
《中國企業家》:智譜AI告訴我們,他們會繼續做預訓練,堅持通向AGI方向。
魏凱:智譜的技術團隊實力很強,他們還重組資源來堅持長期投入。基礎模型的比拼,看技術團隊的實力,也看耐久力,“糧食”儲備夠不夠多是一個關鍵。
《中國企業家》:通向AGI必須得靠大模型預訓練嗎?
魏凱:投入海量資料和算力,開展大模型預訓練,對於模型基礎能力提升至關重要,預訓練,是讓大模型大量閱讀和刷題,可以類比在學校中學習,而這些資料都是人類積累下來的,本質上還是向人類學習。但預訓練不是提升模型能力的唯一路徑,在後訓練階段利用強化學習,潛力也非常巨大。強化學習不太依賴人類提供的資料,而更強調從實戰經驗中學習,可以類比為在工作實踐中學習。
目前,我們也要警惕一種高估大模型能力的傾向,錯誤地認為大模型無所不能,這是不準確的。在產業化應用中,我們要透過詳細的評測,瞭解大模型能力邊界,將任務需求與模型能力準確匹配。讓大模型幹它不擅長的活,一定會出問題。
使用大模型,建議側重利用模型的認知能力和邏輯能力,而不要盲目相信其提供的事實性資訊。
《中國企業家》:未來能消除這種幻覺或者錯誤嗎?
魏凱:大方向是減少幻覺,但目前的技術路線不能100%保證沒有幻覺。大模型生成內容,是靠神經網路引數來回憶,而不是一種精確查詢。
《中國企業家》:外掛知識庫可以解決這個問題嗎?
魏凱:把確定性的東西都放在資料庫裡,讓大模型檢索,可以有效減少輸出幻覺。就像律師或法官,在法庭打官司的時候,如果要引用法律條文,一定是查原文,這樣才能確保完全準確。
到了一些嚴肅場景,還是得靠確定性的查詢,所以一個真正的人工智慧應用軟體,它的組成部分有大模型,有資料庫、知識庫以及各種被呼叫的工具,它並不只能單純依靠模型本身來滿足需求。
模型本身就像一箇中樞神經系統,它能排程,但它難以做到100%準確回憶,也不會直接幹活,要具備幹活”能力,還是得靠呼叫其他的工具,那就是Agent
點選封面訂閱全年雜誌

Manus本質上是一堆提示詞
《中國企業家》:Agent今年備受關注,它為什麼這麼火?
魏凱:Agent實際上是執行在大模型上面的軟體,利用大模型意圖理解和規劃能力,呼叫專業工具,實現複雜的功能。其實早在兩年前業內已經在提Agent了,2023年年中,信通院釋出的人工智慧十大關鍵詞,就已經將Agent納入其中。兩年來,得益於基座模型水平的提升,Agent智慧水平也在不斷進化。
過去的Agent還要靠人寫提示詞,做成工作流,告訴它第一步幹什麼,第二步幹什麼,第三步幹什麼。今天的Agent可以自己規劃工作流,自己產生思維鏈,與兩年前基於人為提示詞和工作流的智慧體相比,智慧水平顯著提升。人的工作一直在往後退,AI的自主性更強了。
來源:AI生成
《中國企業家》:那未來在人機互動中,提示詞是不是不用那麼精準了?
魏凱:我記得DeepSeek推理模型剛出來的時候,還專門有個教程說,不要讓使用者寫提示詞,否則影響模型的自主思考過程。現在並非不需要關注提示詞了,提示詞仍然非常重要。目前Agent已經內建精心設計的系統提示詞,這部分提示詞寫得越好,模型能力就被激發得越充分,整體效果就越好。
《中國企業家》:面對大模型,其實大部分人問不出好問題,也不知道該問什麼。
魏凱:同樣的模型,你給它好的提示詞和不好的提示詞,得到答案的水平差異很大,這就是Agent層或者應用層公司的價值。
《中國企業家》:未來模型能力繼續提升,會不會覆蓋當前Agent的創業空間?
魏凱:從技術上講,大模型是一個作業系統,Agent就是一個應用程式。從功能上說,Agent非常像數字員工。未來,會慢慢進化出各種崗位特定的Agent,每個人可能會擁有很多Agent,有的是生活助手,有的是工作助手。
《中國企業家》:如果按照這個邏輯推演,未來“一人公司”或者超級個體也是有可能的。
魏凱:未來是可能的,Agent會成為數字員工,人和數字員工合作,能力會越來越強。所以未來善用AI的人,可以擁有幾乎無限個數字員工,從而成為一個超級個體,一個人可以指揮“千軍萬馬”,這個意義上,一人公司不是夢。
《中國企業家》:現在大家都在說,新的入口爭奪戰。
魏凱:哪家公司也沒有明顯的優勢,現在都處於膠著狀態,所有人都想搶,手機作業系統廠商、一些智慧硬體公司,還有超級APP廠商,包括新興創業公司都想搶奪使用者的入口。
《中國企業家》:目前Agent產品的形態成熟了嗎?未來還會進化嗎?
魏凱:還早,Agent可能不是一個產品,使用者自己都可以開發一個,但功能很單一。未來,Agent會很有市場,企業裡會有很多覆蓋多種功能的Agent。所以Agent可能不是一個產品,而是好多功能的集合,但Agent開發平臺可能是少數。
《中國企業家》:未來底座模型+應用是一個怎麼樣的格局?
魏凱:可能是個位數的基座模型,然後再加上若干個垂直行業的應用平臺,或者是很成熟的Agent,形成數字勞動力市場。
《中國企業家》:明星模型公司有超級APP,比如月之暗面的Kimi,它有海量使用者,這能不能讓模型能力變得更好?
魏凱:這是兩回事兒,不一定,超級APP只會沉澱很淺層的資料,大量使用者資料不會在APP上,因此,聊天機器人型別的超級APP,如果不附加其他深度應用功能,就很難構造自己的資料飛輪。

被低估的谷歌
《中國企業家》:谷歌的模型能力現在也跟上來了。
魏凱:國內各行業,包括媒體在內,高度關注大語言模型、聊天機器人型別的AI應用發展,對谷歌DeepMind引領的AI路線關注度相對不高。
DeepMind佈局的強化學習路線,以及在蛋白質、材料、生物、數學等領域研發的垂直領域專業模型,對推動科學進展意義重大,如果能產業化,將會對實體經濟產生重大影響。
因此,AI大模型的賽道無限廣闊,語言和多模態模型,只是一個分支,AI能用於創新和研發,可能會極大加速人類創新速度,需要引起高度關注。
《中國企業家》:谷歌被低估了嗎?
魏凱:外界絕對低估谷歌了。Transformer、MoE、蒸餾等技術都是谷歌創立的,而且,谷歌的大模型Gemini排名一直在前面,包括雲、大資料等概念和核心技術也是谷歌最早提出來的。
攝影:王超
你看谷歌(DeepMind)的佈局方向,那些才是真正的高價值場景,為什麼大家說聊天機器人找不到場景,因為聊天就這麼回事,但DeepMind的探索不一樣,它可以最佳化工藝流程,發現新藥、新材料,對實體經濟的價值很大。
國內也有一些公司在佈局這些領域,但整體力量還比較薄弱,因為這方面難度很高。就像規模定律(Scaling Law)已經探明瞭,模型這條路可行,才有了今天的繁榮。今天,雖然DeepMind的創始人哈薩比斯獲得了諾貝爾化學獎,激發了大家的興趣,但這個領域的技術門檻很高,失敗風險也很高,需要長期投入。
《中國企業家》:哈佛大學的李飛飛博士提出了世界模型,說模型不能只靠在語言裡面打轉,要深入物理世界。
魏凱:前的大模型還不能很好地理解空間關係,也不能很好地掌握時間序列、因果關係、物理定律等。大語言模型掌握了語言序列的分佈,透過語言來理解世界,是簡介的、不可靠的。要讓AI實現通用智慧,還需要建立世界模型。
中國企業家》:AGI什麼時候會到來?
魏凱:我認同山姆·阿爾特曼(OpenAI聯合創始人)等人對AGI的觀點,他們覺得這個詞不太重要,我們只需要關心AI今天做得比昨天好,明天比今天好。比較容易定義目標、容易採資料的任務,AI很快就能突破,幹得比人好。比如自動駕駛,就是很容易定義目標的任務,程式設計也是,這些領域會最早被突破。
現在,各種行業都在找這種先導場景。

從圖靈測試到新一代的基準測試
中國企業家》:5月26日,紅杉中國宣佈推出全新的AI基準測試xbench,基準測試為什麼很重要?
魏凱:現在的人工智慧都是基於神經網路去訓練,但神經網路是個黑盒子,你不知道它學的效果怎麼樣,就跟學生一樣,怎麼看他學得好壞,那就需要考試,月考、周測、期中考試、高考等。
現在的人工智慧也是這樣,神經網路訓練叫湧現,或者叫生成,結果不確定,因為它本質是黑盒子,只有透過測試,才能知道它的能力有沒有達到。測試基準(Benchmark)是衡量大模型水平高低一把尺子。
所以,每家大模型公司釋出新模型的時候,都會引用一個測試結果,來說明它的產品效能;對內,公司的研發人員也得看評測結果,來決定是否結束訓練,如果沒達到目標,就需要繼續訓練。
來源:AI生成
應用開發商也得測大模型,哪個好用,哪個不好用。整體來說,基準測試(Benchmark)是個指揮棒,牽引著技術往前走,所以,誰能定義Benchmark,誰就定義了方向,因為神經網路人工智慧最強大的地方在於,只要你定目標,它就能學到,跟目標接近。
《中國企業家》:中國信通院人工智慧研究所做的“方升”大模型基準測試體系,它和其他的Benchmark有什麼不同?
魏凱:紅杉中國推出xbench,實際上面向的是真實場景,比如AI在辦公室能不能當文員,能不能當客服接線員,而不是早期的基準測試以學科考試題為主,比如高考題,或者研究生水平推理測試(GPQA)。那些學科考試類的評測,在學術上有價值,但並不能真正代表到真實使用者場景中,AI具備完成任務的能力。
我們的“方升”大模型基準測試,就是瞄準產業實戰應用方向,目的是推動AI能幹活,具備賦能實體經濟的能力。
《中國企業家》:聽起來像Agent的測試能力,你們是怎麼做到的。
魏凱:第一,我們的題目有學科考試類的題,增加了大量垂直行業的題目,比如它是不是能理解接線員的問題,我們就更偏重行業應用的問題。
第二,現在的大模型測試很容易被騙,很多Benchmark的資料集是開源的,一些人會把它混到訓練資料集裡,大模型做過這些題,它當然能答對。現在,我們很多題不是開源的,是我們內部開發的。
現在我們的資料庫也比較大,有七八百萬條資料,每次測試時,從中抽取大概1萬或2萬道題,測完以後,這些題就作廢了。
第三,測試的方法論標準化,我們把它都公開,寫成藍皮書,大家都來用,我們還引入了同行評審,大家都可以來挑刺。
《中國企業家》:誰能定義基準測試,誰就能定義AI。
魏凱:大模型發展從2020年到現在,已經5年了。大家都在針對一個目標往前奔,在考試上追求高分數,為什麼中國和美國大模型的差距會縮小?因為大家的目標一致,目標已經明確,路線也清楚了(Scaling)。
到了AI下半場,這個目標需要重新思考。
現在的大模型側重內容“生成”,給使用者提供大量資訊,這也會造成新的資訊過載,但實際上並沒有減輕人的工作量。下一階段,精簡輸出資訊,提升思考深度,增強使用能力是主要方向,意圖理解、任務規劃、深度研究、軟體工程等能力就變得非常重要。
透過標準和測試,引導推動大模型面向產業實際需求,解決高價值場景中的關鍵問題,提升人工智慧賦能實體經濟的效能,這就是我們“方升”大模型基準測試體系建設的方向。

新聞熱線&投稿郵箱:[email protected]

END
值班編輯:王怡潔  審校:張格格  製作:姜辰雨
關注“中國企業家”影片號
看更多大佬觀點和幕後故事
[ 推薦閱讀 ]


相關文章