AI看柯南2分鐘揪真兇,商湯600B多模態MoE推理封神!互動記憶全線升級


新智元報道  

編輯:編輯部 YZNH
【新智元導讀】就在剛剛,商湯第六代大模型震撼升級,強推理、強互動、長記憶能力拉滿。更驚人的是,這個模型徹底了實現文字、影像和影片的原生融合,看一段幾分鐘柯南影片,就能推斷出兇手的作案手法,推理絕了!
商湯多模態大模型,剛剛震撼升級V6。
從此,日日新SenseNova V6成為真正的原生多模態通用大模型,完全實現了文字、影像和影片的原生融合。
新升級的模型,能力值簡直拉滿,看完幾分鐘的影片,能立馬進行深度理解,還能給出推理分析!
比如柯南里「看不見的兇器」這集,兇手究竟是怎麼下毒的?
喂一段2分多鐘的影片,模型就給出了正確分析:兇手大機率是透過妻子每日開的車進行間接投毒的。
在分析中,它甚至直接猜出了關鍵線索——兇手很可能是將毒藥塗抹在了空調系統管道中。
我們特意去名偵探柯南的動畫中考證了一番,模型給出的,就是正確答案!
甚至,它還能自動變成「剪刀手」,幫我們剪輯出想要的影片片段,還給出搭配bgm的建議。
比如給它一段《黑神話·悟空》的經典雪地打鬥片段後,它就會根據要求剪出「精彩的閃躲」高光時刻,甚至為每個片段都配上了解說文案。
「歡迎來到黑神話悟空的戰鬥世界,當boss從飛簷縱身躍下,注意他長矛劃出的完美拋物線。」這文案實在太地道了。
在影像理解與推理方面,它可以正確地總結出斯坦福HAI2025 AI Index」報告中圖表的內容,包括這一年頂尖大模型的效能趨於相近,以及競爭激烈的現象。
同時,它還總結出了各大模型的動態規律,以及隱含意義,點出下一階段的決勝關鍵,就是差異化功能、垂直場景應用。

上下滑動檢視
在音訊通話中,我們可以隨時打斷它,它接得住各種型別的話茬,還能用開心、沮喪等各種情緒和我們說話。
它可以情緒飽滿地讀一首《滿江紅》。
手頭晦澀的英文資料,也可以請它幫忙給出介紹了,比如DeepSeek這篇論文的摘要,它看一眼就可以幫忙給出總結。
而且,這個600B的MoE模型不僅解鎖了「強推理、強互動、長記憶」的超強能力,還實打實地橫掃了各類榜單。
在純文字和多模態任務上,它在多項指標上超越了GPT-4.5、Gemini 2.0 Pro,甚至全面碾壓DeepSeek V3。
從此,SenseNova V6瞬間解鎖更多高階場景,再次大大拓寬大模型的應用邊界!

多模態「全能王」誕生
2025的AI舞臺,依舊硝煙瀰漫。
單純堆砌引數的Scaling Law正走向盡頭,效率、多模態、推理能力成為了全新的競技場。
從GPT-4.5、Gemini 2.5 Pro到剛剛釋出的Llama 4,全球頂尖玩家都在加碼多模態融合,而商湯也以「日日新SenseNova V6」系列,強勢殺入這場王者之戰。
綜合來看,業界大模型競爭已從量變轉向質變,三大趨勢清晰可見:
  • 效率為王,引數邊際收益越來越小,業界不再盲目擴大引數量,而是轉向模型架構創新和高密度資料合成,提升 scale斜率。
  • 多模態登頂,資訊融合成為核心。文字、影像、影片不再是割裂輸入,而是透過深度融合,帶來更完整的場景價值。
  • 深度推理能力成焦點,更是AI切入高價值場景的關鍵。過去,推理多停留在數理求解任務上,但未來,它必須與多模態結合,才得以應對真實世界的複雜挑戰。

原生多模態融合,三點全面突破
商湯敏銳地捕捉到這三大技術走向,以此為藍圖,才打造出SenseNova V6系列,劍指三大技術高地——
多模態長思維鏈、多模態強化學習、多模態全域性記憶
在他們看來,真正有價值的大模型,必須要做到兩點:一是能融入真實業務,解決複雜問題;二是能與人自然互動,讓人願意持續聊天。
接下來,就讓我們解剖SenseNova V6,看看這款模型憑什麼敢挑戰全球頂尖?
基石王者:SenseNova V6 Pro/Reasoner Pro
SenseNova V6 Pro是原生多模態通用大模型,共有6000億引數,採用了MoE架構,原生融合了文字、影像、影片元素,綜合性能全面開花。
在純文字和多模態任務上,SenseNova V6 Pro效能直逼Gemini 2.0 Pro和GPT-4.5。
推理版Reasoner Pro在SenseNova V6 Pro的基礎上,透過多模態長CoT訓練和多模態增強學習,推理能力大幅提升。
相較於上一代SenseNova 5.5,Pro推理版多模態融合能力更強。
甚至,它能夠對標OpenAI o1和Gemini 2.0 Flash-thinking,輕鬆破解多模態複雜任務。
此外,SenseNova V6還有面向即時互動、影片理解等場景的小版本。透過深度融合了語言、語音、影片,支援影片-語音端到端即時互動,綜合性能直接對標GPT-4o mini,但共情能力和情感語音互動更勝一籌。

四大技術創新
SenseNova V6的耀眼表現,背後是商湯多年技術積累的爆發。
2025年1月,商湯融合模型拿下了SuperCLUE 2024年語言模型綜合榜和OpenCompass多模態綜合榜國內第一。
這恰恰驗證了,原生多模態融合訓練技術的巨大潛力。
如今,他們技術沿著這條路線持續最佳化和scale,SenseNova V6的效能得以再上新的臺階。
面對複雜問題,SenseNova V6能夠像人類一樣深度思考,一步步推理出答案,正是因為其採用了多模態長思維鏈合成技術。
透過多智慧體協作,進行長CoT合成和驗證,最終實現了64K多模態長思維鏈,讓模型具備長思考能力。
此外,商湯還構建了面向多種圖文任務「混合增強學習」框架,融合了RLHF和RFT,動態去調節主客觀表現。
這樣一來,SenseNova V6在推理能力提升的同時,情感表達也不會打折。
SenseNova V6能夠處理10分鐘影片,因其將視覺資訊(畫面)、聽覺資訊(語音、音效)、語言資訊(字幕、口語)、時間軸邏輯進行對齊,形成了統一表徵,再透過動態壓縮保留了關鍵語義。
由此,10分鐘影片被大幅濃縮到16k token,既高效又精準,為長影片理解開闢了全新格局。
看得出,SenseNova V6的誕生,是商湯多年來技術的集大成。
更重要的是,它並沒有停留在實驗室,已經在企業助手、機器人等互動場景中落地開花。

從辦公神器到機器人,「日日新」日日用
如今,全新SenseNova V6多模態大模型正在解鎖一系列令人驚歎的應用場景。
從打工人效率神器,到深耕日常場景智慧助手,再到賦予機器人「靈魂」,V6正用技術溫暖生活。
AI的價值在於解決日常中的繁瑣與痛點,讓技術真正服務於人。
正如商湯科技創始人徐立所言,「AI之道,在於百姓之日用」。接下來,讓我們一探究竟,V6如何走進每個人生活。

打工人神器,效率倍增
在辦公領域,SenseNova V6再次賦能商湯AI超級助手——辦公小浣熊。
它是一個將LLM融入規劃、資料分析、文件編輯的辦公助手,透過Plan-Analyze-Write三步法,重塑工作流。
舉個栗子,讓AI幫你去分析餐廳評論資料,不到1分鐘時間,小浣熊就給出了完整建議。
在輸出內容左下角,還有「建立一個新文件」選項,不用跳出網頁端,便可在一鍵生成的內容上,與AI再次共創。
針對開發者,還有專門的程式碼小浣熊,能讓編碼效率蹭蹭提升。
它覆蓋了軟體需求分析、架構設計、程式碼編寫、軟體測試等多個環節,可以實現程式碼編寫、程式設計學習等各類需求。
關鍵是,它還能支援Python、Java、JavaScript等100+程式語言,相容VS Code、JetBrains系列等主流IDE。
假設上傳一份產品需求文件,然後要求寫一個公有云上微信掃碼訂單模組,AI會迅速給出解決方案。
具體來說,它的主要功能包括智慧程式碼補全、AI程式碼對話、程式碼編輯、多模態軟體研發、面向企業級BizDevOps提供全面智慧輔助等。
使用程式碼小浣熊後,開發者的開發效率提升了50%+,企業的研發效率提升了30%+
此外,在商業保險核賠中,傳統財務人工稽核往往耗時3-7天,且規則雜難以完全定義。
日日新V6透過學習海量資料,便能迅速發現單據中存在的問題,大幅提升了效率並降低錯誤率。
比如下面這個例子,V6就檢查出上傳的憑據金額不符、時間矛盾,並且還有處方藥的單子需要補全。
不僅如此,它還發現了一些非常細節的瑕疵——體重沒填、醫生也沒有簽名等等。
而這一系列風險的提示,都是V6自己進行交叉驗證之後獲得的。
再比如,一家咖啡店收集了使用者各種反饋,V6透過多模態分析後,能生成SWOT報告,指出推廣潛力並給出具體方案。

記賬購物,節支小幫手
不僅如此,「日日新」多模態大模型正深入到普通人的每個生活場景中,讓AI變得更加觸手可及。
就比如,大多數人會記賬,那麼AI加持的記賬,又會有何不同呢?
「咔皮記賬」,這款聚焦於消費和財務管理的工具,採用了Multi-Agent模式,透過「分時動態推理」靈活分配資源,精準響應需求。
比如,MBTI消費分析報告這個功能,就把遊戲趣味和專業分析結合了起來。使用時不僅能看到表達高度自由的思維鏈,而且任務生成的網頁也是即時渲染的。
另一大常見的場景,便是上網購物了。
面對不同平臺上五花八門折扣資訊,難以快速對比快速抉擇,不如就交給AI。
這時,難點來了——各個平臺的佈局,差異極大。
比如關於打折的資訊,有的寫在黃色的背景上,有的寫在藍色的背景上,還有的則是跟在其他文字的後面。
更麻煩的是,包裝的規格也不盡相同:有80抽16包,有60抽5包的,還有110抽12包的。
對此,V6不僅能綜合分析商品價格、包裝、促銷等資訊,甚至還可以細化到「每抽紙巾的單價」,推薦出最優購買方案。
不論是賬,還是購物,省錢也有了小技巧。

機器人有了「靈魂」
在機器人領域,SenseNova V6,讓它們不僅讓能「看」清環境細節,「聽」懂你的指令,「說」出自然流暢的回答,甚至透過推理,還能讀懂你的情緒。
更厲害的是,V6能夠做到讓機器人語言和動作同步,比如講解時,它會一遍娓娓道來,一邊用手勢表達;或是對情緒感知後,做出肢體反應的動作。
商湯用AI讓機器人不再是冰冷冷的工具,而是生活中智慧又貼心的夥伴,開啟了人機互動新時代。
無論是管理需求、教學輔助,還是銷售報告,V6均能處理非結構化資料,應對開放式問題。
我們可以看到,商湯多模態大模型,正以「百姓之日用」為導向,讓AI從仰望星空的宏大敘事,落地成為每個人生活中的得力助手。

AI 2.0未來引擎,三位一體
當下,AI正以驚人的速度重塑世界。
在這場AI 2.0變革中,商湯並沒有選擇了單打獨鬥,而是祭出了「大裝置-大模型-應用」三位一體的核心戰略。
這不僅僅是一場技術的協同進化,更是對AI未來的深刻洞察——
基礎設施是大模型的「根基」,大模型是應用的「引擎」,而應用場景又會反哺技術迭代,形成一個生生不息的生態閉環。
商湯的目標很明確,既要做「最懂算力的大模型服務商」,也要做「最懂大模型的算力服務商」,用硬實力驅動AI落地開花。
他們以「日日新」多模態大模型為基石,正加速「一基兩翼」的佈局。
生產力工具為企業插上了效率的翅膀,從金融分析到政務管理,讓打工人工作不再繁瑣,效率成倍提升。
而互動工具則帶來溫暖的智慧體驗,無論是智慧陪伴還是個性化營銷,AI皆可得心應手。
這種潤物細無聲的滲透,才是AI 2.0的真正意義。


相關文章