商湯甩出具身智慧大招!最強多模態大模型登場,給機器人裝上大腦和眼睛

商湯猛曬具身智慧佈局,要讓人形機器人真聽、真看、真思考。
作者 |  ZeR0
編輯 |  漠影
國產大模型,給人形機器人裝上大腦、眼睛、耳朵和嘴巴了!
這位傅利葉通用人形機器人GRx,立即辨認出“水”和“可樂”,還能根據說話人提出的“想減肥+愛運動”需求,給出適合的建議。
讓它夸人,也是張口就來。
另一位具身智慧機器人“飛燕”,能娓娓道來地描述眼前的場景,包括室內環境如何、人們在做什麼。
這意味著以後機器人迎賓或當解說員,不再是站樁上崗了,而是活人感滿滿,更自如地跟人侃天侃地聊周圍,還能察覺眼前人的心情,透過改變語氣和音調給足情緒價值。
這些多模態能力,來自商湯剛剛釋出的新一代「日日新SenseNova V6」大模型。
今天,「日日新SenseNova V6」火力全開,實現「長思維鏈 x 數理能力 x 推理能力 x 全域性記憶」能力升級,包括最長64K思維鏈大幅領先GPT-4o的資料分析能力多模態深度推理國內第一10分鐘長影片理解及深度推理等強項,還展示了將先進視覺互動和理解引入機器人的應用效果。
商湯這次多模態能力的升級,讓人形機器人在視覺和語言能力上,具備了更趨近人的水平。
當智東西問到是否會做與行為能力相關的具身智慧模型,商湯科技聯合創始人、執行董事及人工智慧基礎設施和大模型首席科學家林達華乾脆利落地回答:“這個肯定會去做。
林達華說,商湯將“如何將機器人互動能力與具身智慧的結合”視作一個非常重要的未來發展方向。他認為最終的AI互動形態是像人一樣互動,不會是對著一個電腦視窗,屆時從機器人、汽車到手機、眼鏡,多模態互動將無處不在。
除了當導遊、講解員,「日日新SenseNova V6」也能玩創意,智東西實測了讓它給空白梗圖設計對話,腦洞開得既多又大。
它還能速覽中長分鐘影片,總結重點內容,精確到影片裡的幾分幾秒,而且能按照使用者要求,將資訊按列表形式輸出,或是剪輯指定場景的影片片段。
只需在商量網頁版上傳一個影片,你就可以做針對性的提問,比如“這倆人關係怎麼樣?”、“這個人推薦的三個商品,哪個價效比高?”
你還可以讓它深入分析故事情節,比如分析某一集《名偵探柯南》裡兇手是怎麼下毒的。
林達華透露說,今年商湯將把影片理解支援時長進一步提升到1小時
商量App上的即時視音訊互動能力也非常絲滑方便,開啟手機攝像頭,就可以哪裡不懂問哪裡。無論是鏡頭裡一掃而過的街景,還是講解數學題和翻譯文字,或者看圖講故事,AI都信手拈來。
全新商量網頁版即日上線,商量App已開啟內測,日日新SenseNova V6 API明日上線。
網頁版指路:chat.sensetime.com
商湯還發布商湯大裝置SenseCore 2.0,同時推出四大行業解決方案,要做“最懂大模型的AI基礎設施”。
值得一提的是,國產晶片參與了「日日新SenseNova V6」的訓練。
商湯科技聯合創始人、大裝置事業群總裁楊帆告訴智東西,國產晶片這三年快速進步,商湯持續對進口及國產晶片做適配和最佳化,希望能提供市場最優的價效比。
01.
6000億引數多模態基座模型開“團戰”:
強推理 x 強互動 x 長記憶
2025年大模型發展有三大重要技術趨勢:效率至上、多模態、深度推理。
新發布的「日日新SenseNova V6」原生多模態通用大模型,採用混合專家架構(MoE),擁有6000億引數,做到三合一:多模態長思維鏈+多模態強化學習+多模態全域性記憶
其推理能力顯著提升,一個模型同時在多模態推理和純文字推理上做到效能對標國際領先模型。從商湯展示的分數來看,SenseNova V6 Reasoner推理模型的推理能力超過了OpenAI o1和Gemini 2.0 flash-thinking。
商湯也實誠地放出了SenseNova V6與OpenAI、谷歌、DeepSeek先進模型在純文字、多模態、純文字推理、多模態推理上的具體分數對比,總體旗鼓相當,高低略有參差 。
其中,純文字推理和多模態推理方面,SenseNova V6在多項數學基準測試中的超過了DeepSeek-R1、OpenAI o1、GPT-4.5。
SenseNova V6的Tablebench透過率超過GPT-4o,展現出強推理能力。
主打即時視音訊互動的SenseNova V6 Omni,實現了影片-語音交融的端到端輸入輸出,在多模態音影片學術榜單上的綜合能力全面領先,單項能力對標專用大模型水準,做到視覺理解準確度高,語音錯誤率低。
在場景能力私域評測中,SenseNova V6 Omni在識別能力、問答對話、記憶能力等維度均顯著領先於同類產品。
02.
攜手具身智慧,
讓機器人真聽、真看、真思考
模型不能紙上談兵,解決現實問題才是硬本事。商湯認為,大模型在商業應用上有兩個關鍵價值:融入真實的業務應用,最佳化與人互動體驗。
而真實世界中的對話,不是像跟DeepSeek對話那樣,把每個指令都描述得很完整清晰,可能隨手指著一個東西提問:“那個是啥?”“這道題怎麼做?”
對應到機器人也是如此。
多模態融合模型可以成為機器人的大腦和眼睛,增強感知能力,像人一樣進行深入思考和自然表達,還有更強的記憶力,比如能夠記住之前來參觀過的人。
這使得機器人在落地到導覽等應用場景時,可以隨時隨地做講解,在網路通暢的狀態下,即時理解和響應語音意圖,與人流暢對話,實現更擬人化的社交與互動。
得益於「日日新SenseNova V6 Omni」多模態能力的進化,機器人能夠看懂人的手勢,回答人們對周圍環境及物品的提問,根據對話內容和場景靈活切換交流方式,帶給使用者更真實、親切的互動體驗。
具身智慧將是商湯多模態推理模型的重要場景之一。此次技術交流日上,商湯特別設定具身智慧主題論壇。
談到近期引起輿論爭議的“朱嘯虎批次退出人形機器人”以及具身智慧泡沫話題,作為人形機器人嘉賓代表,銀河通用合夥人、大模型負責人張直政談道,作為科研人員,他從謹慎樂觀的角度來看待,泡沫對於驅動科技創新很正常。
商湯科技聯合創始人、大裝置事業群總裁楊帆認為,科技產業要經歷質疑,克服質疑,才能邁向更認真嚴肅的產業階段,讓大家更認真的思考距離商業落地還有多遠。他相信多模態互動能力會給機器人帶來幫助。
03.
AI融入“百姓日用”:總結中長影片重點,
生成遊戲解說指令碼,即時視音訊通話
在日常生活和辦公場景中,應用了「日日新SenseNova V6」系列模型後,也能帶來更多便利和生產力的提升。
比如上傳時長10分鐘以內的網課、旅遊、生活類影片,就可以讓AI快速整理重點、回答與影片內容相關的問題。
商家可以收集顧客對新品的評論吐槽截圖,讓「日日新SenseNova V6」做專業的經營分析。
它還能解決真實辦公場景裡繁瑣但重要的需求,包括資訊管理、報告生成、運維日誌生成、數學建模等。
另外透過商量app,不僅有常見的文字聊天、圖片問答、深度思考等功能,還能進行音訊通話和視訊通話,並針對四大高頻需求,提供「數學解題」、「點讀翻譯」、「文旅講解」、「繪本講解」四大功能。
你可以跟AI玩“你畫我猜”。在開場演示中,「日日新SenseNova V6」立即識別出使用者正在畫的是哪吒大電影裡的太乙真人。它還能惟妙惟肖地模仿太乙真人角色的口音。
拍照解題幾乎已經是各類多模態AI聊天app的標配。但這些普遍要先拍照,上傳照片,再等AI輸出一個很長的答案。
而透過商量app即時視訊通話,AI可以像一個真人家教,精準識別手寫體,深度推理分析和定位錯誤,並針對錯誤點一步一步引導式講題。
外出旅遊就更方便了,相當於在手機裡擁有一個博學多識的免費導遊,開啟攝像頭一掃,想問什麼都能立即獲得答案。你還可以把攝像頭對準外文書籍或選單,讓AI即時翻譯。
在家庭場景,很多家長沒有時間讀繪本,或者得絞盡腦汁地給孩子講故事。這也可以由商量app代勞,它能實現連續記憶與時序邏輯理解,講述更完整生動的故事,還能挖掘故事深意,昇華主旨。
04.
三大多模態技術創新,
商湯大裝置大降推理成本
上述進展離不開商湯在技術上的持續創新。會上,商湯著重強調了三類技術:
(1)多模態長思維鏈:透過智慧體(Agents)協作進行長思維鏈合成和驗證,可支援合成最長 64K的多模態長思維鏈,使模型具備面對複雜問題的長時間思考能力。
(2)多模態強化學習:構建了面向多種圖文任務的混合增強學習框架,可以同步進行基於人類偏好的RLHF、基於確定性答案或沙盒執行的RFT,並透過動態調節機制保證主客觀表現的均衡。
(3)多模態全域性記憶:可將視覺資訊、聽覺、語言、與時間軸邏輯進行對齊,形成多模態統一時序表徵。在此基礎上透過內容敏感的細粒度級聯資訊壓縮,實現400倍的長影片壓縮。
此外,SenseNova V6 Video將影片理解時長突破到10分鐘,離不開長影片統一表徵和動態壓縮的技術進步,可將10分鐘長影片壓縮到16K tokens,同時仍然保留關鍵語義。透過“視覺-聽覺-語義”三重關聯推理,它能發現影片內容中的一些矛盾和漏洞。
大模型技術的高效落地與規模化應用,離不開高效穩定的算力底座。據商湯科技聯合創始人、大裝置事業群總裁楊帆透露,商湯大裝置已經將商湯多模態推理應用的成本降到和大語言模型一樣
透過PD分離/通訊計算摺疊/FP8強化/運算元最佳化等基礎設施與模型協同最佳化,結合預測模型驅動的彈性伸縮技術,商湯大裝置實現了推理效能的突破,線上服務效能較頭部廠商提升15%,超行業平均水平25%;離線推理方面,Prefill階段提速5倍,Decode階段提速3.5倍。
此外,商湯大裝置聯合某頭部客戶進行了大規模異構混訓,基於自動並行策略、跨芯通訊、容錯恢復等核心技術,在5000張國產GPU叢集上實現1個月穩定異構混訓,達成80%算力利用率,成功突破單一GPU限制,為國產晶片碎片化問題提供了關鍵解決方案。
商湯大裝置還宣佈今年發放1億代金券,全棧賦能場景落地。
05.
結語:商湯堅定“三位一體”戰略,
加速“一基兩翼”佈局
大模型演算法與基礎設施的聯合最佳化,已經成為推動生成式AI飛速發展的核心動力。
當前,商湯正基於“大裝置-大模型-應用”三位一體核心戰略,全面構建未來競爭力,致力於透過基礎設施、大模型和應用的協同迭代,成為“最懂算力的大模型服務商”和“最懂大模型的算力服務商”。
基於三位一體戰略,商湯打造以日日新(SenseNova)多模態大模型為基石,以生產力工具和互動工具為兩大落地方向的“一基兩翼”佈局。其中生產力工具側重在企業copilot、金融、政務,互動化工具側重在擬人互動、多模態互動、智慧營銷。
從技術突破、商業落地到生態協同,商湯正在摸索出作為獨立AI企業的核心競爭力,深入真實場景需求,服務於大眾和企業日常,將多模態大模型的優勢真正落到實處,實現更智慧、更溫暖、更有用的人機互動。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章