AI看柯南2分鐘揪真兇，商湯600B多模態MoE推理封神！互動記憶全線升級

2025-07-08 15:17 新智元

新智元報道

編輯：編輯部 YZNH

【新智元導讀】就在剛剛，商湯第六代大模型震撼升級，強推理、強互動、長記憶能力拉滿。更驚人的是，這個模型徹底了實現文字、影像和影片的原生融合，看一段幾分鐘柯南影片，就能推斷出兇手的作案手法，推理絕了！

商湯多模態大模型，剛剛震撼升級V6。

從此，日日新SenseNova V6成為真正的原生多模態通用大模型，完全實現了文字、影像和影片的原生融合。

新升級的模型，能力值簡直拉滿，看完幾分鐘的影片，能立馬進行深度理解，還能給出推理分析！

比如柯南里「看不見的兇器」這集，兇手究竟是怎麼下毒的？

喂一段2分多鐘的影片，模型就給出了正確分析：兇手大機率是透過妻子每日開的車進行間接投毒的。

在分析中，它甚至直接猜出了關鍵線索——兇手很可能是將毒藥塗抹在了空調系統管道中。

我們特意去名偵探柯南的動畫中考證了一番，模型給出的，就是正確答案！

甚至，它還能自動變成「剪刀手」，幫我們剪輯出想要的影片片段，還給出搭配bgm的建議。

比如給它一段《黑神話·悟空》的經典雪地打鬥片段後，它就會根據要求剪出「精彩的閃躲」高光時刻，甚至為每個片段都配上了解說文案。

「歡迎來到黑神話悟空的戰鬥世界，當boss從飛簷縱身躍下，注意他長矛劃出的完美拋物線。」這文案實在太地道了。

在影像理解與推理方面，它可以正確地總結出斯坦福HAI「2025 AI Index」報告中圖表的內容，包括這一年頂尖大模型的效能趨於相近，以及競爭激烈的現象。

同時，它還總結出了各大模型的動態規律，以及隱含意義，點出下一階段的決勝關鍵，就是差異化功能、垂直場景應用。

上下滑動檢視

在音訊通話中，我們可以隨時打斷它，它接得住各種型別的話茬，還能用開心、沮喪等各種情緒和我們說話。

它可以情緒飽滿地讀一首《滿江紅》。

手頭晦澀的英文資料，也可以請它幫忙給出介紹了，比如DeepSeek這篇論文的摘要，它看一眼就可以幫忙給出總結。

而且，這個600B的MoE模型不僅解鎖了「強推理、強互動、長記憶」的超強能力，還實打實地橫掃了各類榜單。

在純文字和多模態任務上，它在多項指標上超越了GPT-4.5、Gemini 2.0 Pro，甚至全面碾壓DeepSeek V3。

從此，SenseNova V6瞬間解鎖更多高階場景，再次大大拓寬大模型的應用邊界！

多模態「全能王」誕生

2025的AI舞臺，依舊硝煙瀰漫。

單純堆砌引數的Scaling Law正走向盡頭，效率、多模態、推理能力成為了全新的競技場。

從GPT-4.5、Gemini 2.5 Pro到剛剛釋出的Llama 4，全球頂尖玩家都在加碼多模態融合，而商湯也以「日日新SenseNova V6」系列，強勢殺入這場王者之戰。

綜合來看，業界大模型競爭已從量變轉向質變，三大趨勢清晰可見：

效率為王，引數邊際收益越來越小，業界不再盲目擴大引數量，而是轉向模型架構創新和高密度資料合成，提升 scale斜率。

多模態登頂，資訊融合成為核心。文字、影像、影片不再是割裂輸入，而是透過深度融合，帶來更完整的場景價值。

深度推理能力成焦點，更是AI切入高價值場景的關鍵。過去，推理多停留在數理求解任務上，但未來，它必須與多模態結合，才得以應對真實世界的複雜挑戰。

原生多模態融合，三點全面突破

商湯敏銳地捕捉到這三大技術走向，以此為藍圖，才打造出SenseNova V6系列，劍指三大技術高地——

多模態長思維鏈、多模態強化學習、多模態全域性記憶

在他們看來，真正有價值的大模型，必須要做到兩點：一是能融入真實業務，解決複雜問題；二是能與人自然互動，讓人願意持續聊天。

接下來，就讓我們解剖SenseNova V6，看看這款模型憑什麼敢挑戰全球頂尖？

基石王者：SenseNova V6 Pro/Reasoner Pro

SenseNova V6 Pro是原生多模態通用大模型，共有6000億引數，採用了MoE架構，原生融合了文字、影像、影片元素，綜合性能全面開花。

在純文字和多模態任務上，SenseNova V6 Pro效能直逼Gemini 2.0 Pro和GPT-4.5。

推理版Reasoner Pro在SenseNova V6 Pro的基礎上，透過多模態長CoT訓練和多模態增強學習，推理能力大幅提升。

相較於上一代SenseNova 5.5，Pro推理版多模態融合能力更強。

甚至，它能夠對標OpenAI o1和Gemini 2.0 Flash-thinking，輕鬆破解多模態複雜任務。

此外，SenseNova V6還有面向即時互動、影片理解等場景的小版本。透過深度融合了語言、語音、影片，支援影片-語音端到端即時互動，綜合性能直接對標GPT-4o mini，但共情能力和情感語音互動更勝一籌。

四大技術創新

SenseNova V6的耀眼表現，背後是商湯多年技術積累的爆發。

2025年1月，商湯融合模型拿下了SuperCLUE 2024年語言模型綜合榜和OpenCompass多模態綜合榜國內第一。

這恰恰驗證了，原生多模態融合訓練技術的巨大潛力。

如今，他們技術沿著這條路線持續最佳化和scale，SenseNova V6的效能得以再上新的臺階。

面對複雜問題，SenseNova V6能夠像人類一樣深度思考，一步步推理出答案，正是因為其採用了多模態長思維鏈合成技術。

透過多智慧體協作，進行長CoT合成和驗證，最終實現了64K多模態長思維鏈，讓模型具備長思考能力。

此外，商湯還構建了面向多種圖文任務「混合增強學習」框架，融合了RLHF和RFT，動態去調節主客觀表現。

這樣一來，SenseNova V6在推理能力提升的同時，情感表達也不會打折。

SenseNova V6能夠處理10分鐘影片，因其將視覺資訊（畫面）、聽覺資訊（語音、音效）、語言資訊（字幕、口語）、時間軸邏輯進行對齊，形成了統一表徵，再透過動態壓縮保留了關鍵語義。

由此，10分鐘影片被大幅濃縮到16k token，既高效又精準，為長影片理解開闢了全新格局。

看得出，SenseNova V6的誕生，是商湯多年來技術的集大成。

更重要的是，它並沒有停留在實驗室，已經在企業助手、機器人等互動場景中落地開花。

從辦公神器到機器人，「日日新」日日用

如今，全新SenseNova V6多模態大模型正在解鎖一系列令人驚歎的應用場景。

從打工人效率神器，到深耕日常場景智慧助手，再到賦予機器人「靈魂」，V6正用技術溫暖生活。

AI的價值在於解決日常中的繁瑣與痛點，讓技術真正服務於人。

正如商湯科技創始人徐立所言，「AI之道，在於百姓之日用」。接下來，讓我們一探究竟，V6如何走進每個人生活。

打工人神器，效率倍增

在辦公領域，SenseNova V6再次賦能商湯AI超級助手——辦公小浣熊。

它是一個將LLM融入規劃、資料分析、文件編輯的辦公助手，透過Plan-Analyze-Write三步法，重塑工作流。

舉個栗子，讓AI幫你去分析餐廳評論資料，不到1分鐘時間，小浣熊就給出了完整建議。

在輸出內容左下角，還有「建立一個新文件」選項，不用跳出網頁端，便可在一鍵生成的內容上，與AI再次共創。

針對開發者，還有專門的程式碼小浣熊，能讓編碼效率蹭蹭提升。

它覆蓋了軟體需求分析、架構設計、程式碼編寫、軟體測試等多個環節，可以實現程式碼編寫、程式設計學習等各類需求。

關鍵是，它還能支援Python、Java、JavaScript等100+程式語言，相容VS Code、JetBrains系列等主流IDE。

假設上傳一份產品需求文件，然後要求寫一個公有云上微信掃碼訂單模組，AI會迅速給出解決方案。

具體來說，它的主要功能包括智慧程式碼補全、AI程式碼對話、程式碼編輯、多模態軟體研發、面向企業級BizDevOps提供全面智慧輔助等。

使用程式碼小浣熊後，開發者的開發效率提升了50%+，企業的研發效率提升了30%+

此外，在商業保險核賠中，傳統財務人工稽核往往耗時3-7天，且規則雜難以完全定義。

日日新V6透過學習海量資料，便能迅速發現單據中存在的問題，大幅提升了效率並降低錯誤率。

比如下面這個例子，V6就檢查出上傳的憑據金額不符、時間矛盾，並且還有處方藥的單子需要補全。

不僅如此，它還發現了一些非常細節的瑕疵——體重沒填、醫生也沒有簽名等等。

而這一系列風險的提示，都是V6自己進行交叉驗證之後獲得的。

再比如，一家咖啡店收集了使用者各種反饋，V6透過多模態分析後，能生成SWOT報告，指出推廣潛力並給出具體方案。

記賬購物，節支小幫手

不僅如此，「日日新」多模態大模型正深入到普通人的每個生活場景中，讓AI變得更加觸手可及。

就比如，大多數人會記賬，那麼AI加持的記賬，又會有何不同呢？

「咔皮記賬」，這款聚焦於消費和財務管理的工具，採用了Multi-Agent模式，透過「分時動態推理」靈活分配資源，精準響應需求。

比如，MBTI消費分析報告這個功能，就把遊戲趣味和專業分析結合了起來。使用時不僅能看到表達高度自由的思維鏈，而且任務生成的網頁也是即時渲染的。

另一大常見的場景，便是上網購物了。

面對不同平臺上五花八門折扣資訊，難以快速對比快速抉擇，不如就交給AI。

這時，難點來了——各個平臺的佈局，差異極大。

比如關於打折的資訊，有的寫在黃色的背景上，有的寫在藍色的背景上，還有的則是跟在其他文字的後面。

更麻煩的是，包裝的規格也不盡相同：有80抽16包，有60抽5包的，還有110抽12包的。

對此，V6不僅能綜合分析商品價格、包裝、促銷等資訊，甚至還可以細化到「每抽紙巾的單價」，推薦出最優購買方案。

不論是賬，還是購物，省錢也有了小技巧。

機器人有了「靈魂」

在機器人領域，SenseNova V6，讓它們不僅讓能「看」清環境細節，「聽」懂你的指令，「說」出自然流暢的回答，甚至透過推理，還能讀懂你的情緒。

更厲害的是，V6能夠做到讓機器人語言和動作同步，比如講解時，它會一遍娓娓道來，一邊用手勢表達；或是對情緒感知後，做出肢體反應的動作。

商湯用AI讓機器人不再是冰冷冷的工具，而是生活中智慧又貼心的夥伴，開啟了人機互動新時代。

無論是管理需求、教學輔助，還是銷售報告，V6均能處理非結構化資料，應對開放式問題。

我們可以看到，商湯多模態大模型，正以「百姓之日用」為導向，讓AI從仰望星空的宏大敘事，落地成為每個人生活中的得力助手。

AI 2.0未來引擎，三位一體

當下，AI正以驚人的速度重塑世界。

在這場AI 2.0變革中，商湯並沒有選擇了單打獨鬥，而是祭出了「大裝置-大模型-應用」三位一體的核心戰略。

這不僅僅是一場技術的協同進化，更是對AI未來的深刻洞察——

基礎設施是大模型的「根基」，大模型是應用的「引擎」，而應用場景又會反哺技術迭代，形成一個生生不息的生態閉環。

商湯的目標很明確，既要做「最懂算力的大模型服務商」，也要做「最懂大模型的算力服務商」，用硬實力驅動AI落地開花。

他們以「日日新」多模態大模型為基石，正加速「一基兩翼」的佈局。

生產力工具為企業插上了效率的翅膀，從金融分析到政務管理，讓打工人工作不再繁瑣，效率成倍提升。

而互動工具則帶來溫暖的智慧體驗，無論是智慧陪伴還是個性化營銷，AI皆可得心應手。

這種潤物細無聲的滲透，才是AI 2.0的真正意義。

相關文章

商湯甩出具身智慧大招！最強多模態大模型登場，給機器人裝上大腦和眼睛

商湯甩出具身智慧大招！最強多模態大模型登場，給機器人裝上大腦和眼睛

剛剛，商湯釋出第六代大模型：6000億引數多模態MoE，中長影片直接可推理

剛剛，商湯釋出第六代大模型：6000億引數多模態MoE，中長影片直接可推理

原生多模態大模型也能強化學習，思維鏈長達幾萬字，商湯日日新V6來了

原生多模態大模型也能強化學習，思維鏈長達幾萬字，商湯日日新V6來了

AI早知道｜商湯科技日日新V6釋出；Pika全新AI影片功能Twists

AI早知道｜商湯科技日日新V6釋出；Pika全新AI影片功能Twists

傅利葉釋出首款開源人形機器人N1：開發者可實現完整復刻；OpenAI開源瀏覽智慧體評測基準BrowseComp丨AIGC日報

傅利葉釋出首款開源人形機器人N1：開發者可實現完整復刻；OpenAI開源瀏覽智慧體評測基準BrowseComp丨AIGC日報

DeepSeek爆火28天，國內大模型同行都在幹什麼？

DeepSeek爆火28天，國內大模型同行都在幹什麼？

極端大風！美團、餓了麼緊急提醒丨大公司動態

極端大風！美團、餓了麼緊急提醒丨大公司動態

AI寫程式碼新姿勢：一個截圖，代替千行程式碼

AI寫程式碼新姿勢：一個截圖，代替千行程式碼

多模態也做到了強推理！工業界首個開源的R1V，讓視覺思考進入o1時代

多模態也做到了強推理！工業界首個開源的R1V，讓視覺思考進入o1時代

Llama3-V竟抄襲國內開源專案，作者火速刪庫跑路…

Llama3-V竟抄襲國內開源專案，作者火速刪庫跑路…

Copyright © 2025 | WordPress Theme by MH Themes