機器之心編輯部
擁有行業最強多模態推理與互動能力的商湯「日日新 SenseNova V6」來了。
如果讓大模型像人一樣聰明,應該是什麼樣的?
你可能會回答,我們生活的世界紛繁複雜,常常涉及多模態資訊(如聲音、文字、視覺、時間、空間等等),對大模型提出了極為複雜和嚴苛的挑戰。
這要求大模型必須擁有極強的推理和互動能力。
GPT-4o 的出現讓我們看到了人機互動新方式。就像這樣,它可以為你講解數學題。
可以說,一直以來,GPT-4o 是可互動模型的行業標杆。
現在,來自國內的一款大模型,表現甚至更勝一籌。
下面是來自國產大模型的解題過程,它能循序漸進的教你如何解題,看起來比 GPT-4o 更像一位有耐心的老師:
又比如,我們指尖指向哪個單詞,它就進行精準翻譯,並自動生成單詞卡,整個過程自然絲滑。
這正是商湯全新升級的融合多模態模型「日日新 SenseNova V6」(以下簡稱:日日新 V6)在 APP 端的體驗效果。
模型透過多模態長思維鏈訓練、全域性記憶、強化學習等方面的技術突破,擁有行業最強的多模態推理與互動能力。

相比此前 V5.5 版本,日日新 V6 / V6 Reasoner 推理能力顯著增強。其中在多模態推理任務上,SenseNova V6 Reasoner 同時超過了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 。在語言深度推理任務上,SenseNova V6 Reasoner 也同樣超過了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking。

日日新 V6 在權威的推理能力及多模態能力評測中,也處於行業領先水平。在純文字和多模態任務上,多項指標超越 GPT-4.5、Gemini 2.0 Pro,並且在純文字任務上全面超越 DeepSeek V3。純文字推理與多模態推理能力均對標 GPT-4.5 和 Gemini 2.0 Pro 等國際一流模型的水平。

在強推理能力上,日日新 V6 大幅領先 GPT-4o。

此外,日日新 V6 在音訊理解、視覺理解等基準上也處於領先水平。

目前,日日新 V6 已經正式開放 API,並可透過商量 Web、商量 App(內測版),以及商湯小浣熊、咔皮記賬等應用進行體驗。
一手實測:主打多模態與深度思考的融合
既然日日新 V6 各項指標已經做到了全面領先水平,那真實體驗效果如何呢?
接下來,我們第一時間上手實測一下日日新 V6 大模型,看看它在實際應用場景中的表現究竟如何。
首先考考它的推理能力。
我們出了一道純文字的邏輯推理題,商量花了 42 秒進行了深度思考,先根據題目條件來逐步推理,再倒推驗證,最終給出正確答案,整個思路非常清晰。

商量還支援多模態深度思考,換句話說,我們不僅可以輸入文字,還可以上傳最多 4 張圖片。
比如,我們上傳了一張莫妮卡・貝魯奇的經典劇照,看它能否準確說出其出處。


商量綜合分析了紅髮黑裙的人物造型,石板街道、戶外咖啡館等場景細節,以及主題氛圍和視覺風格,最後認出這是《西西里的美麗傳說》。同時,它還一併回答了該電影的導演以及主要的影片內容。
接著,我們又測了下它的互動能力,涉及數學講題、翻譯點讀、文旅講解和繪本故事四大應用場景。
對於年輕父母來說,輔導孩子學習可是一件苦差事,甚至「不寫作業,母慈子孝;一寫作業,雞飛狗跳」一度成為網路熱梗,而商量的「數學講題」場景,簡直幫了父母們的大忙。
它包括判題和講題兩大功能。只要拿著孩子寫的試卷,咔嚓拍個照,它就能精準識別手寫答案,而且它的深度思考模式可顯著提高解題準確性,正確率可達到 95%。
同時,基於強大的音影片溝通能力,商量還搞了個「免費數學私教」,不僅能快速鎖定孩子在解題中的錯誤、以引導提問的方式逐步剖析解題思路,還可以即時一對一語音答疑。
影片開啟 2 倍速
給孩子講繪本故事也讓不少家長頭疼,雖然繪本圖文並茂,但照本宣科講出來就顯得乾乾巴巴。商量則透過多模態識別與語音表達技術,將繪本內容進行情感化演繹,融入語音互動或後續故事問答等內容。
如果出門旅遊,商量還是個合格的導遊。拍攝一段文物或景點畫面,它就能聲情並茂地講解相關歷史背景。
從基準測試到實際體驗來看,毫不誇張的說,日日新 V6 確實是一位名副其實的全能優等生。大家可能會疑問了,打造這樣一款大模型體系,成本一定很高吧。
事實上成本與效率這塊商湯也拿捏了。
技術解讀:原生融合多模態,還有獨門技術
在日日新 V6 大模型上,商湯透過一系列創新性的技術突破和商業策略,成功實現了高效能與低成本的完美平衡。
從硬體基礎說起,利用商湯大裝置,商湯構建了「模型 – 系統 – 計算」的垂直整合體系,實現了大模型演算法與基礎設施的聯合最佳化,大幅提升了日日新 V6 的訓練和推理效率。
依靠 6D 自動並行、FP8 低精度訓練等技術,日日新 V6 的訓練成本達到了行業最優水平。在推理時,日日新 V6 實現了生產級的 INT4 量化、高適應性的分級快取、分鐘級彈性擴縮容,整體推理成本也做到了行業最低,效率超過了 DeepSeek。
在此之上的大模型演算法,也是商湯在 AI 領域深耕多年的結果。
如今,多模態大模型已成為人們追求的方向。然而,我們在很多應用中接觸到的多模態模型並不能說是「完全體」。正如我們在很多應用中所接觸到的,不少大模型是把影像、語音、文字分別訓練好,再用「膠水程式碼」粘在一起。就像用翻譯軟體先把圖片轉文字,再把文字轉成語音 —— 看似多模態,實際上是多個單模態在接力幹活。
真正的多模態應該像人類感官與大腦,比如當人類看到蘋果時,視覺(顏色)、觸覺(手感)、味覺(甜味)是同時感知的。
商湯從一開始就全面瞄準多模態。他們從模型底層架構和資料訓練階段就實現不同模態(如文字、影像、音訊、影片等)的統一理解和生成,而非後期拼接多個單模態模型。
去年 7 月,商湯推出的日日新 SenseNova 5.5 大模型體系引發了業內關注。它是國內首個流式原生多模態互動模型,擁有 6000 億引數,基於超過 10TB tokens 的高質量訓練資料實現了 109.5 字 / 秒的推理速度。
今年 1 月,商湯在原生融合多模態訓練上實現突破,釋出了「日日新」融合大模型。並在 SuperCLUE 2024 年語言模型綜合榜單、OpenCompass 多模態綜合榜單上取得了國內模型榜首的成績,驗證和商湯融合訓練技術的巨大潛力。
沿著這一路徑,商湯進行了進一步最佳化和規模擴充套件,並在日日新 V6 上實現了多模態綜合性能的顯著提升。
日日新 V6 進一步強化了推理能力,它可以支撐起對人類意圖的深化理解,對複雜資訊進行分析判斷,並解決真實環境中的難題。與此同時,它還可以充分理解感情,與人進行流暢的互動。它擁有足夠長的記憶,能夠記住過去一段時間內發生的事,並將記憶內資訊融入推理。
模態越多,大模型處理的實際上下文就越長。在思維鏈上,商湯透過多智慧體協作進行長思維鏈合成和驗證,實現了多模態長思維鏈合成技術,可以支援合成最長 64K token 的多模態長思維鏈,這相當於讓模型在給出答案之前可以連續進行長達 6 萬字的思考,讓模型具備了面對複雜問題的長時間思考能力。
日日新 V6 的思維鏈引擎中,商湯呼叫了一系列以往在計算機視覺方面的能力,包括影片、影像、3D 等以給出主思維鏈的反饋,其輸出的多模態思維鏈會被智慧體改寫為符合模型的訓練格式。日日新 V6 在思考時還可以呼叫沙盒甚至外部程式碼能力來呈現出更好的思維鏈。

這就讓日日新 V6 在做立體幾何問題時,甚至可以做輔助線。
前不久,DeepSeek R1 透過強化學習演算法 GRPO 取得了突破,商湯在 SenseNova V6 上為大模型帶來了多模態混合強化學習,面向多種圖文任務構建起混合增強學習框架,可以同步進行基於人類偏好的 RLHF 和基於確定性答案的 RFT,並且透過動態調節機制保證主客觀表現的均衡,能在提升推理能力的同時不損害模型的情感表達。
在這個過程中,原始的多模態模型可以被呼叫到獎勵模型中,獲得先驗知識的反饋,隨著持續反思,模型的響應長度變得更長,這也意味著推理變得更仔細。

最後,日日新 V6 還具備獨一無二的長影片統一表徵和動態壓縮能力,它可以將視覺、聽覺、文字、時間軸邏輯進行對齊,形成多模態統一的時序表徵,透過細粒度級聯資訊壓縮和內容敏感的動態過濾,實現長影片的 400 倍高比例壓縮。據介紹,商湯的大模型可以把 10 分鐘影片壓縮到僅有 16K tokens,仍能保留關鍵語義。

對於真實世界中的應用,這一系列技術至關重要。
釋出會現場,我們看到商湯與傅利葉機器人合作,基於 SenseNova V6,傅利葉機器人可以透過融合影像、影片、語音和文字資訊理解環境進行思考與表達,洞察使用者的需求與情緒,與人類進行順暢互動,機器人在說話的同時,還能同步生成與語義相匹配的動作,實現語言與行為的統一。
此外還有更多搭載 SenseNova V6 的 AI 產品和應用,涵蓋辦公、兒童教育、金融、翻譯、電商購物、情感陪伴、支付等等,讓我們感受到,AI 已經落實於百姓的日常生活場景。
生成式 AI,正在進入新時代
時間進入 2025 年,大模型技術的發展正在進入新的階段,一些重要技術已經走入瓶頸期,新的方向正在出現。
圖靈獎得主、Meta 首席 AI 科學家 Yann LeCun 在談及 AI 為何難以做出科學發現時曾表示,純粹的語言模型不能完整地表達智慧,無法創造新的事物。
基於文字的生成式 AI 也在接近「上限」,大語言模型的發展正在快速耗盡網際網路的文字資料。OpenAI 聯合創始人 Ilya Sutskever 認為,耗盡的時間會在 2028 年前後。
另一方面,在數字世界、物理世界中還有很多、甚至更大數量級的更多模態的內容還沒有挖掘。
從 DeepSeek 橫空出世,到英偉達 H300 超算的釋出,我們可以觀察到,AI 領域正在出現幾個新的趨勢:
-
首先是對於 Scaling Laws 的新思考,隨著大模型引數和訓練資料量級增加效益的遞減,業界正在逐漸把關注點轉向效率提升;
-
其次是多模態能力,從 GPT-4o 和最近釋出的 Llama 4 上可以看出,具備原生的多模態能力,能夠實現更深度、更廣泛的資訊互動與整合,將會成為未來大模型的競爭重點;
-
在它們的基礎上,大模型的強推理則會成為人們打造複雜任務智慧體,實現高價值場景應用的關鍵。
有趣的是這三個方面,也正是商湯的優勢項:憑藉大量融入真實業務的應用,商湯構建出的大模型體系擁有處理複雜資訊和解決複雜問題的能力;多年在計算機視覺等方向上的積累,讓商湯在大模型邁向多模態時具備了絕對優勢;在算力方面,商湯的大裝置 SenseCore 一直在推動 AI 算力設施、應用與行業需求的深度融合,其能力還在不斷增長。
在 AI 2.0 時代,基礎設施、大模型和應用三者的關係已變得密不可分。越來越廣泛的應用場景在推動著 AI 模型的發展,AI 技術也在不斷創造並推動新的應用需求;與此同時,對大模型最佳化的 AI 基礎設施正在出現,新的模型也在催生著更為強大的技術。
未來,商湯的日日新大模型,還會向生產力工具 + 互動工具兩大方向進行大規模落地。其中生產力工具面向傳統企業、金融、政務等領域,能幫助人們提升工作效率、最佳化工作流程;互動工具則面向所有普通使用者,覆蓋從智慧助手、智慧硬體到智慧營銷……
過不了多久,最常見的日常場景,也都能用上原生多模態 AI 的力量。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]