實測文心X1:便宜大碗還能自主呼叫工具,引發矽谷反思?

作者

Yoky

郵箱

[email protected]

又一家中國模型引發了矽谷大模型界的反思!這次,是百度文心X1。
知名風投機構Benchmark合夥人Bill Gurley,在社交媒體上的評論引發熱議:“美國人工智慧公司應將100%的時間用於開發和創新,而不是在華盛頓特區遊說尋求保護以躲避競爭。”

另一邊,海外使用者紛紛在平臺上求助如何獲取百度賬號,科技KOL Alvin Foo在使用數小時後評價:“百度對文心進行了重大更新…其效能令人印象深刻。在多個基準測試中均優於ChatGPT 4.5,而價格僅為其1%。”科技作家Robert Scoble則直言:“我們有一場AI價格戰!”
這一切,都源於3月16日百度同時釋出了文心大模型4.5和文心大模型X1,目前,兩款旗艦產品已提前在文心一言官網免費向用戶開放。
作為百度新一代基座大模型,文心大模型4.5的多項基準測試成績優於GPT4.5、DeepSeek-V3等,並在平均分上以79.6分高於GPT4.5的79.14。而文心X1作為百度首個深度思考模型,主打的就是極致價效比。以輸入0.002元/千tokens、輸出0.008元/千tokens的價格,僅為DeepSeek-R1價格的一半,但效能卻不相上下。
更關鍵的是,文心X1實現了從邏輯推理、熱點分析到多工具協同呼叫的突破,成為首個自主運用工具的深度思考模型。它能調用搜索、AI繪圖、程式碼執行等11種工具,模型可自主規劃行動路徑,生成可直接落地的方案。
假設一下,當深度思考模型可以呼叫足夠多的工具來實現使用者發出的指令,比如直接呼叫程式設計工具進行程式設計,或者呼叫word文件存檔知識庫,形成一系列工作流,這不就是原生Agent麼?
我們帶著這個疑問,全面測試了X1和文心4.5。
1
能呼叫工具的X1,堪比Agent?
在評測過程中,我們先是測試了X1的基礎程式設計能力,讓它幫忙設計了一個貪吃蛇小遊戲。透過思考,X1很快給出了設計思路和程式碼。
程式碼結構清晰,註釋詳盡,不僅包含了遊戲的核心邏輯,還考慮到碰撞檢測、分數計算和遊戲狀態管理等細節。不過X1體現了完全的“程式設計師直男風格”,完全不懂美化一下小蛇。(笑死)
隨後,我們又測試了X1的邏輯推理能力,向它提出了一個經典的推理謎題,這道題在我們題庫裡,幾乎問過每一個推理模型,包括DeepSeek R1、Kimi1.5、OpenAI o1,但無一例外都選擇了「abba」的答案,但真實的情況是前三題正確,最後一題的殺人動機為c,一個被迫害妄想症患者的自我保護。
看來大模型懂邏輯,但還是很難懂人性。
在這次X1的功能中,與以往推理模型最大的不同在於他可以思考後呼叫工具,完成使用者更落地的需求,結合多模態的能力,我們嘗試了幾個很實用的場景。
比如我們找到了一張房間的圖片,需要將圖片中的房間進行軟裝改造,並生成效果圖。這中間涉及到圖片理解——裝修意見——AI生圖,呼叫了三個工具完成最終的效果圖展示。
效果圖出來的時候,驚呆了!家裝設計師岌岌可危啊!不僅能自定義風格,對哪些傢俱擺放不滿意還可以進一步提需求調整,X1也能處理更加複雜的需求,比如房間擺設風水等等,無限出圖,刷到滿意為止!
經過實測,X1即便在複雜任務下,反應速度也非常快,沒有卡頓,同時X1能主動識別任務需求,精準分析問題性質和複雜度,無需使用者明確指導便能理解真實意圖。
最突出的特點是其自主工具選擇能力,模型能基於任務特點智慧選擇最優工具組合,而非簡單套用固定流程。在實際使用中,X1能在單次互動中靈活調用搜索、繪圖、程式碼執行等多種工具協同工作,打破了傳統模型的工具使用邊界。
總的來說,推理分析能達到R1的水平,同時不卡頓又能呼叫其他工具,真香了!
1
怎樣高效能,又能低成本?
那麼,X1是如何做到在保證模型效能的前提下,還能把價格打下來?
這一突破與百度多年的技術積累息息相關。透過飛槳深度學習平臺和文心大模型的聯合最佳化,文心X1實現了全鏈路極致調優,大幅降低了推理成本。
在模型壓縮層面,文心X1應用了尖端技術進行深度最佳化。透過分塊Hadamard量化技術,精確控制模型引數精度與規模的平衡;針對長序列場景,團隊特別優化了注意力機制的量化方案,在保持推理準確性的同時顯著減少了計算資源需求。這些壓縮技術使模型體積減少的同時,維持了高水平效能表現。
推理引擎是另一個關鍵突破點。百度團隊實現了低精度高效能運算元最佳化,充分利用硬體特性;創新開發的動態自適應解碼技術,同時基於神經網路編譯器的深度定製化最佳化,實現了推理加速
最後是透過框架和晶片協同最佳化、分離式部署架構、高效資源排程實現系統級最佳化
當然,除了百度在AI時代的技術積累以外,也有工程化的技術創新。
據矽星人瞭解到,X1採用了遞進式強化學習訓練方法,不同於傳統的強化學習透過“試錯+獎勵”機制訓練模型,“遞進式”則強調分階段、漸進式的訓練策略,來提升模型的訓練效率。
這種方法類似人類的學習路徑——“先學走路,再學跑步”,目的是創作、搜尋、工具呼叫、推理等更復雜的任務場提升模型的綜合應用能力。實際測試中,當要求X1分析一張包含圖表的財報圖片,並生成投資建議時,模型能自主決策先使用影像理解工具,再調用搜索獲取相關行業資料,最後透過程式碼直譯器生成資料視覺化分析,整個過程如同專業分析師的工作流程。
其次,X1突破性地將思維鏈(Chain of Thought)和行動鏈(Chain of Action)結合進行端到端訓練。
簡單地理解為,模型不是割裂地學習思考與行動,而是將兩者有機融合,形成完整的決策-執行閉環。透過這種方式,X1能根據每次行動的結果反饋,動態調整思考和行動策略。例如,在複雜的市場分析任務中,X1先透過思維鏈分析需要哪些資料,然後透過行動鏈調用搜索工具獲取最新市場資料,發現數據不足後,又主動調整策略使用更專業的資料分析工具,最終生成全面的分析報告,這種靈活性在傳統模型中難以實現。
第三,X1創新性地解決了單一獎勵指標的侷限性,構建了多元統一的獎勵系統透過融合多種型別的獎勵機制,形成綜合獎勵訊號,全方位指導模型最佳化方向。
這一系統的最大優勢在於避免模型“偏科”,如過度追求準確性導致內容枯燥,或過度追求創意性而犧牲準確性。X1的輸出更接近人類綜合判斷,能在不同場景下自適應調整表現風格。當然,這也帶來了挑戰:需要動態調整權重(如創作場景側重創意性,程式碼生成場景側重邏輯性),依賴海量場景資料訓練。
1
模型發一贈一,文心4.5也來了
值得一提的是,除了文心X1的強大表現,百度也釋出了此前預告過的基礎大模型:文心大模型4.5
在實測中,文心4.5展現出卓越的多模態理解能力和極低的幻覺率。例如,我們向模型傳送了一段抖音影片,關於電子產品介紹,文心4.5不僅能準確識別影片中的專業術語和關鍵資料,還能對該產品進行購買推薦。當面對含有多種資訊源(圖片、表格、文字)的混合輸入時,模型能正確識別並區分不同來源的資訊,避免了常見的資訊混淆和虛構,這得益於其強大的去幻覺能力。
透過iRAG技術提升百度系列模型的去幻覺能力和準確性,以及FlashMask動態注意力掩碼技術、多模態異構專家擴充套件技術、時空維度表徵壓縮技術、基於知識點的大規模資料構建技術和基於自反饋的Post-training技術。這些技術不僅保證了模型的精準理解和穩定輸出,更為模型後續的行業應用提供了堅實基礎。
可以讓大模型從娛樂化的環境晉升到商業環境中,比如幫助家裝設計師進行風格設計、分析影片指令碼進行模仿、電商產品圖生成等等,都變成了通用大模型的能力。
透過這些深度技術創新,百度不僅打造出了高效能、低成本的文心X1,更重要的是探索出了一條獨特的大模型發展路徑在追求技術極致的同時兼顧實用性和經濟性。
這種平衡發展的理念,既滿足了企業對AI效能的高要求,又解決了應用成本問題,使AI真正能夠為各行各業創造實際的價值。

點個愛心,再走


相關文章