海外熱議!百度雙模型免費上線,實測可幫沒看“3.15”的打工人避雷

作者 | 王嘉陸
在中國 AI 大模型熱鬧了一整個春節後, 百度又給出了大動作。
3 月 16 日上午,百度連續釋出了文心大模型 X1 和文心大模型 4.5,不僅能力再進階,價格也更低。文心 X1 並非單純的深度思考模型,能自主呼叫工具,還具備多模態能力,其核心在於專家級的規劃、分析能力;而文心大模型 4.5 則更多強調原生多模態能力,尤其是視覺理解能力。
釋出後僅僅半天,文心大模型 X1 和文心大模型 4.5 就在海外引起了熱議。
矽谷著名科技投資人 Bill Gurley 直言,美國人工智慧公司應將 100% 的時間用於開發和創新,而不是在華盛頓特區遊說尋求保護以躲避競爭。這種情況很糟糕,明顯暴露出缺乏自信。
前微軟、Rackspace 員工,同時也是知名美國科技作家的 Robert Scoble 則對價格表示了震驚:“(文心大模型 4.5 及 X1)價格是 DeepSeek 的 R1 的一半。我們有一場 Al 價格戰!”
彭博社研究員 Steve Hou 表示,“文心大模型 X1 的效能與 DeepSeek-R1 相當,但價格僅為後者的一半”。這就像太陽能板之於 AI 模型一樣。中國不斷進取,永無止境。
海外知名科技博主 Bishal Nandi 也表示,“百度剛剛推出了文心大模型 4.5 和文心大模型 X1。文心大模型 4.5 的表現優於 GPT-4o,而文心大模型直接挑戰 DeepSeek R1。最棒的是,這兩個模型都是免費的。”
海外的網友們更是急的不行,跪求賬號和跪求文心一言官網“漢化”的圍觀群眾比比皆是。
不過,國內使用者並不存在這個問題,目前兩大新模型均已上線文心一言官網,向所有使用者免費開放。
同時,文心大模型 4.5 已上線百度智慧雲千帆大模型平臺,企業使用者和開發者登入即可呼叫 API;文心大模型 X1 也即將在千帆上線。百度搜索、文小言 APP 等產品以後也將陸續接入文心大模型 4.5 和文心大模型 X1。
推理模型 + 多模態模型,對於百度而言是不是 1+1 > 2?InfoQ 在第一時間,圍繞幾個核心場景對這兩個大模型展開了測試。
文心大模型 X1:
深度思考與多工具呼叫的專家
文心大模型 X1 是本次外界對百度期待的重點。百度也確實沒有讓這種期待打折扣——文心大模型 X1 不是簡單增加了 CoT 思維鏈,而是設計了理解、規劃、反思、進化能力,並支援多模態,百度官方口徑表示:這是首個自主運用工具的深度思考模型。
在實際測試中,我們發現,文心 X1 非常重視中文語境和亞文化的特別表述,一如既往地有著百度對中文語料的特別理解和積累,因此在中文知識問答、文學創作、文稿寫作、日常對話、邏輯推理、複雜計算及工具呼叫等方面表現尤為出色。
文心 X1 的另一個特別標籤,在於其能自主運用工具,在設計理念上,和當下流行的 AI Agents 形態有很多共通的地方,某種程度上也是百度千帆生態的延續。文心大模型 X1 支援呼叫的工具有:高階搜尋、文件問答、圖片理解、AI 繪圖、程式碼直譯器、網頁連結讀取、TreeMind 樹圖、百度學術檢索、商業資訊查詢、加盟資訊查詢等。
理論上,這使得文心 X1 應用於實際生產環境的體驗更好。在大模型領域,百度的 RAG 技術一直比較成熟,此次也深度整合在了文心 X1 中, 使得文心 X1 能快速全面地分析即時熱點事件,並降低幻覺率,效果比肩 DeepSeek-R1。
作為國產大模型的又一突破,文心 X1 同樣在成本層面做足了文章。飛槳和文心聯合對文心 X1 進行最佳化,據官方資料,文心 X1 的成本大概只有 DeepSeek-R1 的一半。
具體來說,在模型壓縮方面,文心 X1 透過分塊 Hadamard 量化、面向長序列的注意力機制量化等實現了深度壓縮;在推理引擎方面,文心 X1 透過低精度高效能運算元最佳化、動態自適應投機解碼、神經網路編譯器實現推理加速。系統層面,則透過框架和晶片協同最佳化、分離式部署架構、高效資源排程實現了系統級最佳化。
筆者透過 PC 端的網頁,進行視覺理解推理、文字理解、高情商回答等方面的測試,實際檢驗了文心大模型 X1 的能力,並在部分專案中附上了 DeepSeek-R1 的回答情況。
在今年的 3.15 晚會上,央視又集中曝光了一批亂象。由於這是最新的熱點新聞,文心大模型 X1 的知識庫大機率不會有相關的知識,那麼針對這個問題,它的表現如何呢?
結果令筆者非常意外,文心大模型 X1 在呼叫高階聯網工具之後,迅速對 3.15 晚會的主題、曝光案例進行了總結,並根據新聞給出了監管部門和涉事企業的後續行動。
之後筆者順著文心大模型 X1 給出的答案,想看看近期有沒有別的較為嚴重的食品安全問題。
看得出來,文心大模型 X1 對熱點新聞的跟進是非常到位的,再之後,筆者繼續以黃燜雞米飯“回收菜”為引子,與文心大模型 X1 展開了多輪對話:
在多輪對話的過程中,文心大模型 X1 不僅從多個方面對熱點事件進行了全面分析,還給出了食品衛生隱患的新聞案例,並在最後為消費者列出了詳細的避坑指南。
然後,筆者又圍繞視覺理解和推理、文字理解、文字創作等方面,對文心大模型 X1 展開了一系列測試。
首先是視覺理解和推理能力,為了增加難度,筆者直接給文心大模型 X1 上了一點強度:對一幅看起來“不知所謂”的藝術品進行解讀。
在呼叫圖片理解工具後,文心大模型 X1 給出了正確的答案,可以看到文心大模型 X1 對作品的創作意圖、象徵意義、社會反響乃至藝術史地位都有著清晰的理解。
在文字理解方面,筆者問了文心大模型 X1 一個謎語,想看看文心大模型 X1 能不能猜出謎底。
在分析謎語結構,尋找可能解釋並呼叫聯網搜尋工具後,文心 X1 給出了準確的回答。
DeepSeek-R1 在經過相對比較久的思考過程之後,也給到了答案,不過並不怎麼“接地氣”。
然後是文學創作,筆者讓文心大模型 X1 生成一個故事大綱,同時結合古風、懸疑、言情、推理要素,並且至少出現 5 個角色。
文心大模型 X1 馬上給到了核心設定、主要人物、故事脈絡、關鍵線索設計和主題設計,並且故事邏輯較縝密,不僅沒有明顯硬傷,而且對每個角色之間的關係、情感也有較為清晰的介紹。
DeepSeek-R1 則是給到了世界觀設定、故事梗概和前三章的內容,整體的故事邏輯也比較縝密,但可惜並沒有給到主要人物的介紹,筆者需要從故事梗概中篩選出這五名主要角色。
接下來,筆者給文心大模型 X1 提了一個複雜的需求:基於 Word 的內容生成 Excel 文件。
在呼叫文件問答、程式碼直譯器工具之後,文心大模型 X1 成功生成了 Excel 文件,並給到了下載連結和預覽。
DeepSeek-R1 這邊也很好地完成了任務。
文心大模型 X1 在視覺理解及推理方面的能力極強,可以對大量圖片細節做深度理解和思考,完成複雜推理任務;同時擁有不俗的邏輯推理能力,可以正確識別並解答腦筋急轉彎這樣的抽象問題;此外,文心大模型 X1 的“情商”和文學創作水平也非常高;擁有即時熱點事件深度還原並分析的能力以及專家級規劃分析能力,在部分場景中,我們還看到了文心大模型 X1 具備多工具的呼叫能力。
文心大模型 4.5:
原生多模態的跨模態專家
我們再來看看文心大模型 4.5。
文心大模型 4.5 是百度自主研發的 新一代原生多模態基礎大模型,核心是透過多個模態聯合建模實現協同最佳化,多模態理解能力優秀;具備更精進的語言能力,理解、生成、邏輯、記憶能力全面提升,去幻覺、邏輯推理、程式碼能力也有顯著提升。
文心大模型 4.5 的多項基準測試成績優於 DeepSeek-V3-Chat、GPT-4o、GPT-4.5 等,並在平均分上以 79.6 分高於 GPT-4.5 的 79.14。
在價格方面,文心大模型 4.5 的 API 呼叫價格僅為 GPT-4.5 的 1%
接下來,筆者將以多模態理解與多模態生成為側重點,實際測試一下文心大模型 4.5 的能力。
首先,筆者給了文心大模型 4.5 一張表情包,試圖讓它分析這張表情包背後的含義。
文心大模型 4.5 正確地分析出了這張表情包所代表的含義。
然後,筆者還嘗試了下讓文心大模型 4.5 做一道高中數學題目。
文心大模型 4.5 很快就給出了答案和解題過程。
圖片相關的任務,文心大模型 4.5 執行得非常出色,那麼在面對音影片相關的任務,文心大模型 4.5 的表現又如何呢?
當然,筆者也沒忘記測試一下文心大模型 4.5 的文字理解能力,鑑於詩詞仿寫,文案生成之類的文字內容生成已經被玩出了花,筆者就在文心大模型 4.5 這裡嘗試了一點不一樣的。
結果,文心大模型 4.5 很快梳理出了最近頻上熱搜的韓國娛樂圈事件——金秀賢事件的背景、事件發展、影響和最新動態。
單論多模態理解方面的能力,文心大模型 4.5 的表現堪稱完美,不僅在應對文字、圖片、音訊、影片時都有著極快的響應速度,準確率也是非常之高。
看起來,文心大模型 4.5 的多模態理解相當不錯,那麼其多模態生成的能力又如何呢?
與多模態理解相比,多模態生成對大模型的要求更高,一旦生成的文字、影像、影片等內容存在邏輯斷裂或者語義偏差,很容易被發現問題。
為此,筆者也測試了文心大模型 4.5 的多模態生成能力。
首先,筆者讓文心大模型 4.5 生成了一張“甄嬛騎摩托車”的圖片。
雖然這個需求本身就有點無厘頭,但文心大模型 4.5 還是很好地執行了,而且可以看到,圖片的背景依然是古代背景,符合甄嬛本身所處的年代。
在多模態生成任務中,文心大模型 4.5 的表現依舊亮眼,它可以很好地根據輸入生成各種文字、影像、影片等內容,而且幾乎不存在輸入輸出不一致的情況。
作為百度自主研發的原生多模態大模型,文心大模型 4.5 有著極強的整體理解與融合能力,不光可以看懂梗圖,還能理解其背後的隱喻;同時擁有更強的細節捕捉能力,能敏銳捕捉圖片細節微表情、數量、畫面具體細節差異;且擁有更強的推理連貫性與邏輯性,能夠對圖片內容做抽象理解與複雜計算;在應對複雜跨模態任務時,也能夠同時理解和輸出不同模態的內容。
百度的 AI 野望
根據上述測試不難看出,作為能力更全面的多模態深度思考模型,文心大模型 X1 在觀點輸出上更為直接,在面對複雜問題時,能夠呼叫不同的工具,詳細拆解給出全面的回覆,譬如將 Word 文件中的內容整理成 Excel。
而文心大模型 4.5 在多模態理解和多模態生成方面的能力也十分強,不僅能對文字、圖片、音訊、影片等內容進行綜合理解,還有著很高的“智商”和“情商”,即便是網路梗圖也能秒懂,此外生成的文字、影像、影片等內容時也不會存在邏輯斷裂或者語義偏差。
與其他多模態大模型相比,文心大模型 X1 和文心大模型 4.5 不僅輸出相當接地氣,而且頗有一種“網際網路老油條”的即視感,特別是在梗圖理解、謎語這種場景下,可以看到其對網路用語、文化現象都有較深的理解。
如果要追根溯源,這大概與百度在中文網際網路的資料優勢,與對“原生多模態”的長期堅持有關。
到目前為止,百度仍然沉澱著中文網際網路最大、最完整的資料來源,長期以來,百度的核心業務都是圍繞使用者搜尋行為展開,積累了海量的中文網際網路資料。
根據百度的 2024 年財報,百度 APP 月活使用者達 6.79 億,日均處理搜尋請求規模龐大,且文心大模型日呼叫量在 2024 年增長 33 倍至 16.5 億次,覆蓋搜尋、內容生成、智慧雲等多場景這種高頻的使用者互動和資料處理能力,使其能夠持續捕獲並沉澱使用者需求、行為模式及內容偏好,形成覆蓋網頁、影像、影片、知識圖譜等多模態的資料資源。此外,百度統計平臺透過即時推送訪問頁面的 URL 至搜尋引擎,進一步加速了中文網頁資料的收錄與更新,強化了資料來源的完整性和時效性。
再加上百度文庫、百度貼吧、百度問答,使得百度在訓練自家模型時能夠達到的效果也更為特別,在多模態維度,這種優勢被進一步放大,使得文心大模型 X1 和文心大模型 4.5 能夠對網路熱梗、流行語乃至表情包都有著不俗的理解能力。
而對“原生多模態”的追求,實際上等同於百度對 AI 應用落地產品的思考結果。應該說,百度從來都沒有妄圖成為一個披著商業外殼的學術機構,其對 GenAI 的研究,自始至終都十分關注 B/C 兩端的使用者體驗。
原生多模態”是指從設計和訓練階段開始,就旨在處理多種模態(如文字、影像、音訊、影片等)的模型或系統。與透過拼接多個單模態模型來實現多模態功能的方法不同,原生多模態模型在架構上實現了對多種模態資料的緊密融合,能夠在輸入和輸出端同時支援多種模態,並具備強大的多模態推理和跨模態遷移能力。
相比之下,像 GPT-4 這樣透過拼接多個單模態模型來實現多模態功能的方法,通常是在技術框架層將語言模型、視覺模型、聲音模型等進行連線,這些模型相互獨立學習,使用不同模態的資料進行訓練,然後將拼接好的模型在跨模態資料上繼續預訓練以及在不同任務資料上進行微調。這種方法可能在不同模態之間的資訊融合不夠緊密,協調性較差。
因此,原生多模態模型在處理多種模態資料時,能夠更好地理解資料間的關聯和相互作用,在執行跨模態任務時表現也會更好,例如圖文匹配、視覺問答等,這也讓全新文心大模型的多模態融合能力極為突出。
當然,即便都是多模態大模型,文心大模型 X1 和文心大模型 4.5 的適用場景也並非完全相同,在面對非開放性的問題時,文心大模型 4.5 的回答更直接,可參考性更強;而在面對需要數理邏輯的具體問題時,文心大模型 X1 會結合各種工具,給出更為詳細、精準的解答。
結   語
李彥宏在百度 25 週年全員信中說,“技術創新才是百度的核心競爭力,我們多年來一直把超過收入 20% 的資金投入到研發上。”隨著文心大模型 4.5 和 X1 的釋出,加上免費與開源策略,百度已經成為中國基礎模型廠商中的長期主義者,預計未來也會堅持投入。
而隨著 AI 應用進一步在國內落地,百度在大模型牌桌也佔據著獨特的生態位置。
 會議推薦
在 AI 大模型重塑軟體開發的時代,我們如何把握變革?如何突破技術邊界?4 月 10-12 日,QCon 全球軟體開發大會· 北京站 邀你共赴 3 天沉浸式學習,跳出「技術繭房」,探索前沿科技的無限可能。
本次大會將匯聚頂尖技術專家、創新實踐者,共同探討多行業 AI 落地應用,分享一手實踐經驗,深度參與 DeepSeek 主題圓桌,洞見未來趨勢。
今日薦文
英特爾CEO陳立武薪酬曝光,最高可達5億元;裁員10%不發年終獎、HR和員工互毆?抖音回應;哈佛大學等美名校凍結招聘 |AI週報
美國網友都在噴!OpenAI公然要求封殺DeepSeek等中國AI模型,還要合法“吸血”全球版權資料!
剛剛,晶片創投“教父”陳立武正式成為英特爾 CEO:曾任中芯國際董事,華人家庭出身
剛剛,谷歌用更少引數打敗 Qwen 2.5-32B!新模型 Gemma 3 號稱“單 GPU 模型王”,團隊緊急招兵買馬!
你也「在看」嗎?👇

相關文章