一手實測百度X1：看得懂腦筋急轉彎、秒解數理化難題、邏輯漏洞，還會自主呼叫工具

首個學會使用工具的深度思考模型，現已全面免費開放。

作者 | 程茜

編輯 | 漠影

文心一言釋出兩週年，百度搞了件大事！

智東西3月16日報道，今日上午，百度文心大模型4.5和文心大模型X1兩款大模型上新，已上線文心一言官網並免費開放，比之前百度官宣的4月1日全面免費提前了半個月。

文心大模型X1是首個可以自主運用工具的深度思考模型，具備更強的理解、規劃、反思、進化能力。其在中文知識問答、文學創作、文稿寫作、日常對話、邏輯推理、複雜計算及工具呼叫等方面的表現更強。

文心大模型4.5是百度自研新一代原生多模態基礎大模型，在多個測試集上的測評表現已經超過GPT-4o。

該模型的能力可以用一個字“全”來概括，其圖片理解涵蓋照片、電影截圖、網路梗圖、漫畫、圖示等多種形態，也能理解音影片中的場景、畫面、人物等特徵，並且在生成名人、物品等方面更具真實性。

對於原生多模態大模型，3月初，百度創始人、CEO李彥宏在人民網發表的署名文章就提到：“原生多模態大模型，打破之前先訓練單模態模型再拼接的方式，透過統一架構實現文字、影像、音訊、影片等多模態資料的‌原生級融合，實現對複雜世界的統一理解，這是邁向通用人工智慧（AGI）的重要一步。”

目前，文心大模型4.5面向企業使用者和開發者開放，登入百度智慧雲千帆大模型平臺即可呼叫API；文心大模型4.5、X1也將陸續上線百度搜索、文小言APP等產品，文心大模型4.5將於6月30日起開源。

文心大模型4.5輸入價格為0.004元/千tokens，輸出價格為0.016元/千tokens；文心大模型X1也即將在千帆平臺上線，輸入價格為0.002元/千tokens，輸出價格為0.008元/千tokens。

文心X1與文心4.5價格對比圖：

百度2024年財報顯示，文心大模型的日均呼叫量已經達到16.5億次，穩居國內大模型產業應用規模前列。此次伴隨著新模型的釋出，其將進一步擴寬技術賦能深度與場景覆蓋廣度。

體驗地址：https://yiyan.baidu.com/

01.

全能選手上線，

擅長看圖說話、經典電車難題、多輪複雜互動

實踐出真知，先來看下百度文心大模型X1的實戰效果。

目前，X1已支援高階搜尋、文件問答、圖片理解、AI繪圖、程式碼直譯器、網頁連結讀取、TreeMind樹圖、百度學術檢索、商業資訊查詢、加盟資訊查詢等多款工具。

我上傳了一張有山有水的風景圖，並詢問文心X1這是哪裡，模型就會呼叫圖片理解工具準確識別出地名。可以看到，文心X1在思考過程中完整呈現了其呼叫工具以及根據圖片元素進行判斷的諸多環節，並給出了準確答案——杭州西湖。

經典的電車難題，文心X1也可以給出全面的答案，可以看到其思考過程中首先明確了這是“經典的倫理困境問題”，然後透過理解這一背景和核心問題、分析不同倫理理論、權衡因素的過程，最後生成完整的答案。

面對經典的數理化難題“雞兔同籠”，X1不僅答案滿分，還在解題思路上自由發揮了一波。其在輸出結果中附上了兩種解題思路。

面對涉及到酒店住宿費用的計算難題，文心X1不僅給出了明確答案，並且輸出的結果，清晰簡潔，我可以一目瞭然題目計算過程中出現的邏輯漏洞。

在使用者的實際場景中，其需求往往更為複雜，需要滿足不同的限定條件，這也是大模型生成結果能滿足使用者需求的關鍵。我輸入的指令是“幫我生成一個為期三個月的減肥計劃”，此外，還給出了幾個限定：工作忙、週末時間寬鬆、對部分食物過敏等。

可以看出X1給出的生成結果中，其對應給出了符合我特定需求的食譜，如果遇到食物本身包含雞蛋、牛奶的，X1會在括號中給出替代的方案。並且考慮到工作的情況，計劃表中還包含適宜在辦公室進行鍛鍊的運動計劃。

在多輪對話中，我首先給出了比較模糊的需求：去新疆旅行的最佳時間、只有法定節假日可以去怎麼辦、哪個價效比最高，基於之前的輸入與輸出結果，文心X1準確定位了我的需求，從新疆不同季節的景色變化到不同假期的人流量變化等進行分析，最終給出了價效比最高且符合我特定需求的行程安排。

文心4.5的能力也不在話下，其既能理解文字、圖片、音影片等多模態內容，還可以進行圖片生成、文字創作等，並完成輸入內容中的邏輯梳理等。

在圖片理解能力，我上傳了一張照片，圖中兩個人物並沒有清晰正臉，所以所以需要模型從整個畫面的構圖、場景等來判斷，文心4.5不僅清晰展現出了場景的具體特徵，還給出了電影名稱、相關人物以及場景在電影中的意義等。

文字生成中，文心4.5還可以針對不同平臺的特點生成相對應文案，如短影片平臺的釋出文案多為一句話概括、小紅書文案需要配合文字以及emoji表情，此外，其還可以生成對應的影片指令碼等。

我結合當下關注度較高的短影片爽劇，讓文心4.5生成關於出身平凡主角隱藏驚人審視、頂級豪門雲集、爭奪商業帝國等元素的指令碼。

生成結果中，文心4.5總共給出5個場景，涵蓋了鏡頭切換、旁白臺詞、旁白語氣等諸多完整元素。

整體來看，文心4.5的跨模態理解能力、捕捉細節能力、推理邏輯的連貫性等方面表現實現了全面的提升。

02.

從訓練提效、多模態理解生成到降低幻覺

百度核心技術攻堅

兩大模型的表現升級背後，是百度在核心技術方面的突破與深耕。

從技術層面看，更全面的深度思考模型文心X1背後有三大核心技術，遞進式強化學習訓練方法、基於思維鏈和行動鏈的端到端訓練、多元統一的獎勵系統。

基於應用遞進式強化學習方法，可以在創作、搜尋、工具呼叫、推理等場景全面提升模型的綜合應用能力。思維鏈和行動鏈的端到端訓練可以針對深度搜索、工具呼叫等場景，根據結果反饋進行端到端的模型訓練，顯著提升訓練效果。

文心X1的訓練還建立了統一的獎勵系統，融合多種型別的獎勵機制，為模型訓練提供更加魯棒的反饋。

在此基礎上，文心X1可以準確理解使用者需求，並實現中文知識問答、文學創作、複雜計算、邏輯推理以及工具呼叫等多元化且強大的能力展現。

同時，作為原生多模態基礎大模型，文心4.5背後也有百度的獨特技術優勢加持，具體來看就是FlashMask動態注意力掩碼、多模態異構專家擴充套件技術、時空維度表徵壓縮技術、基於知識點的大規模資料構建技術、基於自反饋的Post-training技術。

綜合來看，這四大技術的目的就是全方位提升大模型的多模態理解能力，以及降低大模型幻覺，這也是大模型當下支撐使用者實際應用、發揮更大價值的關鍵。

在提升模型能力方面，FlashMask動態注意力掩碼可以有效提升大模型的長序列建模能力和訓練效率，最佳化長文字的處理能力和多輪互動表現；多模態異構專家擴充套件技術能解決因模態差異導致的資訊提取和處理困難的問題，提升多模態融合能力。

在提升模型訓練效率方面，多模態大模型訓練中還有一大難題是，其圖片和影片通常佔據大量的儲存空間，在傳輸過程中也需要耗費較多的時間和頻寬資源，時空維度表徵壓縮技術就可以對其語義表徵進行壓縮，提升多模態資料訓練效率。

此外，為了進一步提高模型學習效率，降低幻覺。一方面，文心4.5透過基於知識點的大規模資料構建技術，在知識分級取樣、資料壓縮與融合、稀缺知識點定向合成技術加持下，構建高知識密度預訓練資料；另一方面，基於自反饋的Post-training技術，大模型可以融合多種評價方式的自反饋迭代式後訓練技術，提升預訓練模型對齊人類意圖能力。

這正是文心X1和文心4.5全方位效能得到提升的有力支撐。

03.

四層技術體系全棧佈局

百度已先人一步

將時間的標尺拉長，百度文心大模型的發展歷程清晰映照出國產大模型茁壯成長的堅實軌跡。

2023年3月16日，文心一言正式釋出並開啟邀請測試，首日超6.5萬家企業申請呼叫。

同年10月，文心大模型4.0釋出，彼時達到了與GPT-4效能相當的水平。從去年6月至今，文心大模型4.0 Turbo、效能強勁的輕量模型ERNIE Speed Pro和ERNIE Lite Pro到當下的文心大模型4.5、文心大模型X1。

如今，百度文心大模型家族持續壯大，成員數量穩步遞增，模型型別愈發多元。

到2024年，文心大模型的日均呼叫量達到16.5億，而2023年同期這一數字僅為5000萬次，增長達到33倍。

作為國產大模型的頭部玩家，百度已經基於大模型構建起了全棧技術佈局，以支撐其上述業務體系的發展。

在當下，大模型的蓬勃發展正深刻改寫AI時代的演進軌跡。從技術架構來看，其技術棧大致可劃分為四個關鍵層級，自下而上依次為晶片層、框架層、模型層以及應用層，而百度也成為當下全球範圍內鮮少的在這四層都有所佈局的公司之一。

也就是在晶片層，百度智慧雲已經成功點亮自研萬卡叢集崑崙芯三代萬卡叢集，框架層飛槳文心開發者數量已經達到1808萬名，應用層百度已經基於大模型重構了百度搜索、百度文庫等多個國民級應用。