一手實測文心X1/4.5:又強又全面!歪果網友瘋求英文版

西風 魚羊 發自 凹非寺

量子位 | 公眾號 QbitAI
文心一言兩週年,百度一口氣上新兩款模型,並且上來就是一個主題:免費。
這個訊息一夜間在𝕏(原Twitter)上引來大批歪果網友關注,相當炸裂。畫風是醬嬸兒的:
你們能不能把頁面也用英文展示一下?
有沒有英文/國際版啊?
可把玩不上的網友給急壞了。
畢竟,這次百度帶來的不僅有半個多月前承諾的新一代原生多模態基礎大模型文心大模型4.5,能力更全⾯的深度思考模型文心大模型X1也無預告突然同步上線。
兩款模型現已在文心一言官網上免費向用戶開放。
同時,在百度智慧雲千帆大模型平臺,現可直接呼叫文心4.5 API,文心X1也即將上線:
文心4.5輸入0.004元/千tokens,輸出0.016元/千tokens;文心X1輸入0.002元/千tokens,輸出0.008元/千tokens。
看到新模型效能和這打了骨折的價格,歪果網友們更加坐不住,手動艾特奧特曼、OpenAI。

新模型釋出,量子位童鞋按老規矩第一時間深入實測了一波,具體來看效果如何~

實測最新文心大模型

據介紹,文心X1是首個自主運用工具的深度思考模型,不僅理解、規劃、反思、進化能力更強,且支援多模態。
而文心4.5,是百度自主研發的新一代原生多模態基礎大模型,透過多模態聯合建模實現協同最佳化,在圖片、音訊、影片等多模態理解方面都很給力。
根據模型特點,我們對文心X1重點測試了中文知識問答、文學創作、工具呼叫和邏輯推理等能力;對文心4.5考驗其圖片理解、影片分析能力。

文心大模型X1

先從推理模型的拿手好戲——邏輯推開始測試。
來道曾讓不少網友頭疼的經典邏輯題熱熱身:
有兄弟二人,哥哥上午說實話,下午說謊話,而弟弟正好相反,上午說謊話,一到下午就說實話。

一個人問:你們誰是哥哥?

胖子說:我是哥哥。瘦子說:我是哥哥。

那個人又問:現在幾點了?

胖子說:快到中午了。瘦子說:已經過中午了。

請問:現在是上午還是下午?誰是哥哥?
文心X1下場解題,推理過程一目瞭然,第一次嘗試就成功了(答案:現在是上午,胖子是哥哥)
看來問題還是太簡單了,好好好,上難度。
下面這題傳說是愛因斯坦曾提出的一道高難度邏輯推理題,據說世界上只有2%的人能夠推出正確答案。
咱也不知道這傳言保不保真,就問題本身來看,的確很有意思:
著實有點沒想到,文心X1在這道題上也能成功答對。
隨著題目難度提升,它的推理思考過程明顯變長,一番詳細分析後,不僅給出了正確答案“德國人養魚”,還成功正確推匯出德國人住在綠色房子裡等更多資訊。

邏輯推理強只是文心X1的一個方面,與其它推理模型相比,文心X1更大的特色在於能夠靈活呼叫各種工具
目前,X1已⽀持⾼級搜尋、⽂檔問答、圖⽚理解、AI繪圖、程式碼直譯器、⽹⻚連結讀取、 TreeMind樹圖、百度學術檢索、商業資訊查詢、加盟資訊查詢等諸多⼯具。
藉助這些工具,文心X1能生成包含圖片、表格、程式碼等更豐富的多模態內容。
比如,當你詢問《紅樓夢》中主要人物關係時,它能自動呼叫高階聯網和程式碼直譯器,幫你繪製圖表、生成配圖。
當然,上傳圖片或文件讓它解析也可以。
隨手上傳一種沒見過的蔬菜,它除了能正確回答出菜名,還自主補充了其營養價值、烹飪方法等更多資訊,包括中藥養生價值、儲存方法這種細節。

測試還發現,複雜問題的規劃分析也是它的強項。
要是讓它寫一份“五月新疆伊犁深度漫遊指南”,從交通、住宿到每天具體行程安排和預算,它都能幫你一併搞定。

最後關於文心大模型X1,還有個特點值得一提,它的文字創作不僅觀點鮮明,創意寫作的想象力也讓人眼前一亮。
比如讓它用“紅樓體”分析“高山和大樹誰更自由”,它還真編出了一個有模有樣的情景,belike:

文心大模型4.5

接下來再康康新一代原生多模態基礎大模型文心4.5。
文心4.5在多模態方面就更全能了,支援文件、圖片理解,還能搞定音訊、影片分析
你可以直接用語音和它聊天,實測方言也能聽懂。
各種梗圖,秒秒鐘get到意思:
對於影片,文心4.5能準確識別影片中的場景、畫面、物品等資訊。目前支援單個最大20MB影片分析。
除了放出新模型,百度這次在模型的實現方法上也透露了更多技術細節。

自主運用工具的深度思考模型

文心大模型X1作為首個自主運用工具的深度思考模型,不僅在效能上對標DeepSeek-R1,具備“長思維鏈”,擅長中文知識問答、文學創作、邏輯推理等,而且增加了多模態能力和多工具呼叫,能理解和生成圖片,還能呼叫工具生成程式碼、圖表等豐富內容。
上面我們的實測也可以看出它在這幾個方面的表現尤為出色。
具體到技術細節上,文心大模型X1背後的關鍵技術包括:
其一,遞進式強化學習訓練方法。即將學習任務分解成多個子任務,讓AI在難度相對較低或更簡單的階段中先學習到一定的技能或知識,再逐步提高任務難度,或者再將這些技能組合起來,以應對更復雜、更具挑戰性的環境。
X1創新性地應用了遞進式強化學習方法,在創作、搜尋、工具呼叫、推理等場景中全面提升模型的綜合應用能力。
其二,基於思維鏈和行動鏈的端到端訓練。針對深度搜索、工具呼叫等場景,根據結果反饋進行端到端模型訓練,能顯著提升訓練效果。
其三,多元統一的獎勵系統
研發人員為X1建立了統一的獎勵體系,融合多種型別的獎勵機制,為模型訓練提供了更加魯棒的反饋。

文心大模型X1的自我描述
文心大模型4.5方面,值得關注的是“原生多模態”。相較於非原生多模態模型,原生模型聯合預訓練能實現更深層次的模態融合,實現更強的模態互動、理解能力。
在此背後,研發團隊主要應用了以下技術:
  • FlashMask動態注意力掩碼:加速大模型靈活注意力掩碼計算,能有效提升長序列建模能力和訓練效率,最佳化長文處理能力和多輪互動表現。
  • 多模態異構專家擴充套件技術:根據模態特點構建模態異構專家,結合自適應模態感知損失函式,解決不同模態梯度不均衡問題,提升多模態融合能力。
  • 時空維度表徵壓縮技術:在時空維度對圖片和影片的語義表徵進行高效壓縮,大幅提升多模態資料訓練效率,增強了從長影片中吸取世界知識的能力。
  • 基於知識點的大規模資料構建技術:基於知識分級取樣、資料壓縮與融合、稀缺知識點定向合成技術,構建高知識密度預訓練資料,提升模型學習效率,大幅降低模型幻覺。
  • 基於自反饋的Post-training技術:融合多種評價方式的自反饋迭代式後訓練技術,全面提升強化學習穩定性和魯棒性,大幅提升預訓練模型對齊人類意圖能力。
另外,為了減少模型幻覺,文心兩大新模型還有百度RAG、iRAG技術的加持。
RAG方面,百度研發了“理解-檢索-生成”協同最佳化的檢索增強技術,能夠生成準確率更高、時效性更好的答案。
iRAG是百度自研的檢索增強文生圖技術,將百度搜索的億級圖片資源跟強大的基礎模型能力相結合,能生成遠勝於文生圖原生系統的超真實圖片。

文心一言生成

百度堅決投入下一代基礎模型

在中國大模型舞臺上,百度入局最早,也始終是最受國內外關注的玩家之一。
正如開頭所言,文心大模型兩大新模型上線,迅速引爆了海內外大模型關注者的測評熱情,影響力可見一斑。

文心大模型時間線
事實上,在2024年,文心大模型日均呼叫量實現了持續高速增長。根據最新百度2024年第四季度及全年財報,與2023年同期的5000萬次呼叫量相比,文心大模型日均呼叫量一年增長33倍,達到了16.5億。
在此背後,百度一直堅持壓強式、馬拉松式的研發投入。近十年累計研發投入超過1800億元。
百度創始人李彥宏也在百度25週年全員信中表示:
25年來,我們始終走在技術的最前沿,始終相信技術創新才是百度的核心競爭力,我們多年來一直把超過收入20%的資金投入到研發上,並且不遺餘力地嘗試把最前沿的技術產品化、商業化,讓更多的人從中受益,因為我們相信只有規模化的應用才能讓技術發揮它的價值。
目前,百度已經實現晶片層、框架層、模型層和應用層的全棧自研佈局。此番,這種自研技術儲備也在模型API價格上體現出了優勢——
文心大模型X1 API,輸入價格0.002元/千tokens,輸出價格0.008元/千tokens。與DeepSeek R1標準時段價格相比,價格便宜一半。
文心大模型4.5 API,輸入價格0.004元/千tokens,輸出價格0.016元/千tokens,為GPT-4.5價格的1%。
而今年後續,百度也已經被爆料接下來還有基礎模型方面的大動作:
開源方面,依據此前預告,百度將在6月30日正式開源文心大模型。
預計今年下半年,還將釋出文心大模型5.0。
2025年,基礎模型在被預言“碰壁”之後,卻又迎來一波更新的新高潮。而隨著模型越來越強,同時又越來越便宜,大模型應用的爆發,已經蓄勢待發。
現在,百度亮出了新的王牌,為這一趨勢增添了新的變數。
—  —
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章