從WAIC2024看人工智慧三大趨勢:智慧體、具身智慧、算力風暴 2025-04-22 19:46 報人劉亞東 防走失,電梯直達安全島報人劉亞東A 來源:IT時報 作者:郝俊慧 AI智慧體開卷、人形機器人進入商用前期、國產算力春意浮動 短短10天內,上海連續舉辦兩個全球性重要展會——世界行動通訊大會(MWCS2024)和世界人工智慧大會(WAIC2024),無論瓢潑大雨還是烈日當空,AI都在魔都掀起一陣科技“颶風”。 馮·諾伊曼說:“技術的不斷加速進步,將會引發人類歷史上某個關鍵的奇點。”從2018年首屆世界人工智慧大會拂曉初現的“人工智慧新紀元”曙光,到如今第七屆WAIC的召開,我們已然佇立在奇點的門檻之上,比以往任何時候都更貼近那個改寫歷史的瞬間。 透過WAIC2024的透鏡,我們清晰看到AI的三大趨勢。 趨勢一 “百模大戰”第二幕 大模型應用元年開卷AI Agent 與一年前的WAIC相比,今年的“百模大戰”名副其實,中國電信的“星辰”、阿里的“通義”、百度的“文心”、騰訊的“混元”、商湯科技的“日日新”、雲知聲的“山海”、人工智慧實驗室的“書生”……幾乎每個展臺都有自己的“大模型”。 在“卷”了一年引數量級、可支援上下文token數、推理價格等等之後,AI Agent(AI助理/AI智慧體)拉開了“百模大戰”的第二幕。 今年入選WAIC鎮館之寶的支付寶智慧助理,便是一款基於螞蟻集團百靈大模型研發的AI Agent,使用者在支付寶首頁下拉就能喚起“小助理”,問一問就能獲得出行、健康、政務、金融等領域超8000項數字生活服務。 “同門師兄”阿里雲的“通義for everyone”則整合通義大模型全棧能力,以通義千問最新基礎模型為基座,整合通義實驗室前沿的文生圖、智慧編碼、文件解析、音影片理解、視覺生成等能力,最終形成一個All in one的全能AI助手。 在“騰訊元器”展區,參會嘉賓可以透過新增提示詞、外掛、知識庫等自由建立智慧體(AI Agent),也可以在智慧體商店選擇、使用智慧體,以滿足不同場景下的需求。 除了這些針對個人使用者的“AI 助手”,作為大模型從通用走向垂直應用的重要“抓手”,AI Agent也出現在各類行業大模型中。 “為B端客戶打造一個AI Agent的過程,更像是一個打通企業流程、全面治理資料、重塑業務架構的契機。”中國電信大模型首席專家劉敬謙告訴《IT時報》記者,只有深入理解行業特性和場景需求,才能打造出真正實用的AI Agent,實現技術的有效落地。 與微軟在Windows 11中建立的Copilot(助手)不同,AI Agent更強調服務的協同性以及對自然語言的認知程度。 OpenAI對AI Agent的定義是以大語言模型(LLM)為大腦驅動,具有自主理解、感知、規劃、記憶和使用工具的能力,能自動化執行復雜任務的智慧體。它具有獨立思考和行動能力,不僅能夠處理資訊,還能根據環境變化自主學習和適應,以實現特定的目標或解決特定的問題。 不久前蘋果剛剛釋出的“Apple Intelligence”,便是一個整合作業系統、軟體、模型和資料,強化對應用場景的理解,深刻洞察使用者需求的AI Agent。 第一個為AI Agent歡呼的大佬是比爾·蓋茨。早在1995年出版的《未來之路》一書中,他便描述過這種可以理解使用者自然語言並根據對使用者的瞭解完成多種任務的Agent,但直到ChatGPT橫空出世,才讓他看到了真正可實用AI Agent出現的可能。 在比爾·蓋茨看來,AI Agent將徹底顛覆人與機器的互動方式。可預見的未來是:智慧手機上都會有一個AI Agent,它將集合手機中所有資料,滿足使用者隨時隨地的需求;它將是企業的“AI程式設計師”,協助開發人員完成從編碼、測試、升級應用到故障排查、安全掃描和修復、最佳化雲資源等繁瑣重複的工作;或者是公司的“資料分析員”,自動彙集分析企業所有資料,挖掘資料金礦價值,員工則只要用自然語言與AI Agent對話,便可以獲得相關業務資料和答案,例如公司政策、產品資訊、業務結果、程式碼庫、人員等。 螞蟻集團董事長兼CEO井賢棟也在本屆人工智慧大會上表示,如同移動網際網路時代App是典型應用一樣,在人工智慧時代,智慧體將成為新的應用正規化,為使用者帶來服務代際的升級,而專業智慧體是大模型落地產業的有效路徑。醫療、教育、金融、製造、交通、農業等各行業領域,未來都有可能依據自己的場景和特有經驗、規則、資料等等,生成數以百萬量級的智慧體,形成龐大生態。 然而,並不是所有的AI Agent都天然擁有強大的能力。AIGC時代,每個企業都不想錯過紅利,但每個企業也都在問:AIGC究竟能給自己帶來什麼?讓生成式人工智慧應用和助手真正發揮作用,它們必須瞭解組織的資料、客戶、運營和業務,但如今的許多助手都無法輕鬆個性化,而且它們的設計也無法滿足公司所需的資料隱私和安全要求。 事實上,AI Agent高度依賴基座大模型的能力、貫通整個企業體系架構的工程能力、研發者對行業的理解以及高質量的資料支撐,以上任何一個條件缺失,都有可能使AI Agent只是看起來很美好,實際使用中卻因為不夠“專業”,導致應用無法落地。 “應用是未來大模型決戰的主要戰場,”在騰訊雲副總裁、騰訊優圖實驗室負責人吳運聲看來,目前幾乎所有大模型廠商都在智慧體領域做進一步技術嘗試,模型以落地、實用為先,大模型的研發應用必須關注和解決具體業務場景,關注可用性和價效比。 趨勢二 具身智慧扎堆繁榮 人形機器人進入商用前期 今年WAIC的鎮館之寶做了一道“大菜”——“十八金剛 人形機器人先鋒陣列”,網羅了中電科、復旦大學、達闥、傅利葉、鈦虎、星動紀元、卓益得、開普勒、宇樹等18個國內領先的機器人產品,著實讓觀眾體驗了一回什麼叫“具身智慧元年”。來自主辦方的資料顯示,本屆大會合計展出的人形機器人超過25款。 1950年,“計算機之父”圖靈(Alan Turing)在他的論文中首次提出“具身智慧”概念。嚴格意義上,機器人、工業機器人、擬態機器狗、智慧網聯車,都是“身”,但人形依然是人類接受度最高的機器人形態。 從硬體條件上看,不少人形機器人已經具備相當高的肢體靈敏度。比如,人形機器人(上海)有限公司自主研發人形機器人“青龍”,身高185cm、體重80kg、全身多達43個主動自由度,手指可以輕拿輕放杯子,即便是柔軟的麵包,也能在抓起時保證麵包外形的完整性。 上海開普勒探索機器人有限公司的通用人形機器人,身高175cm,體重70kg,全身具備40個關節自由度、80多個感測器,具備複雜地形行走、智慧規避障礙等多種功能。 國家地方共建人形機器人創新中心總經理許彬一直有一種略帶激進的看法:具身智慧是通往通用人工智慧的必由之路,而且只有人形機器人才能實現通用人工智慧,核心邏輯是人類社會存在的所有資料,都是為了讓人類更好地生存和發展,所有對世界的理解、認知和情感的資料,都是基於人體產生,而貓或魚等其它生物本體,不可能感知到人類世界的各個方面。 至少在現階段,具身智慧尚不完全具備對物理世界的認知和互動能力,尤其是目前類GPT模式的大模型,在用於具身智慧時,效果並不理想。 一家國產人形機器人創始人透露,之前曾將GPT-4V的影像介面接入機器人,但大模型對物體的空間認知能力非常差,而且“記憶力”只有一秒。全球人工智慧頂級科學家李飛飛也認為,大模型不具備知覺,引數再多也不行。 “我們需要構建一種‘知識+資料’驅動的智慧模型,”中國工程院院士、同濟大學校長鄭慶華創新性地提出“知識森林”理論,將大模型中的碎片化知識與人類已有的知識鏈融合,從而生成具有可解釋推理的問題求解機制。 上海人工智慧實驗室主任、首席科學家周伯文也認為,具身智慧絕不僅僅是大模型加機器人的應用,而是大模型接收物理世界的反饋從而進化,“光靠看書或看影片,永遠學不會游泳,你得親身扎到水裡才能學會。大模型得透過機器人,扎進現實世界,才能真正理解物理世界。” 世界模型是當前具身智慧領域最熱門的詞語。人工智慧實驗室構建了“軟硬虛實”一體的機器人訓練場——浦源·桃源,同時攻關具身智慧的“大腦”與“小腦”。“浦源·桃源”是首個城市級具身智慧數字訓練場,構建了集場景資料、工具鏈、具身模型評測三位一體的開源具身智慧研究平臺。作為大模型與機器人的連線層,涵蓋89種功能性場景、超10萬高質量可互動資料,有望解決領域內資料匱乏、評測困難的問題。 在大腦方面,人工智慧實驗室透過具身智慧體自身狀態認知、複雜任務分解分配、底層技能協同控制三方面創新,實現了大模型驅動的無人機、機械臂、機器狗三種異構智慧體協同。在小腦方面,透過GPU高效能並行模擬和強化學習,可以高效實現機器人在真實世界裡快速學習,並完成高難度動作,現在單卡1小時的訓練就能實現真實世界380天的訓練效果。 儘管完美匹配智慧本體的世界模型還未出現,但具身智慧近兩年的發展已經遠超從業者預期。 不久前,特斯拉CEO馬斯克在年度股東大會上表示,特斯拉將於2025年開始“限量生產”Optimus(擎天柱)人形機器人,明年特斯拉將有上千臺在執行的Optimus機器人。達闥更是在現場預售起具身智慧人形機器人XR4,價格39.9萬元起。 宇樹科技CEO王興興認為,最遲明年年底之前,全球範圍內一定會出現比人跑得快的人形機器人,“比如說100米跑進10秒,在體育專案和文藝演出上,人形機器人比做家務應該更得心應手。” 許彬對技術的迭代速度樂觀地判斷道,未來3~5年,人形機器人可以在一些工廠智慧製造產線執行,未來5~10年可以在家庭服務等場景運用。 趨勢三 多路徑破局“鐵幕” 國產算力“春意浮動” 由AI帶來的算力風暴,還有被美方拉下的“科技鐵幕”,使算力晶片成為近幾年WAIC上備受關注的焦點。 2022年WAIC期間,更是正面遭遇美國宣佈對華斷供英偉達高階晶片。如今,兩年過去,當美國不斷收緊晶片政策時,國產算力開始顯露出一絲春天的綠意。 “從今年開始,萬卡將是AI模型訓練主戰場的標配。”7月3日,國產晶片廠商摩爾線程創始人兼CEO張建中宣佈,誇娥(KUAE)智算叢集解決方案向萬卡萬P萬億引數通用算力叢集升級,以全功能GPU為底座,打造能承載萬卡規模、具備萬P級浮點運算能力的國產通用加速計算平臺,為萬億引數級別的大模型訓練提供平臺。 截至目前,至少已有兩家國產晶片廠商實現了單池萬卡叢集的能力,為我國自主可控的AI大模型攻堅建立了關鍵基礎設施。 新型異構算力架構也在嘗試解決算力規模化難題。無問芯穹推出的千卡規模異構晶片混訓平臺,採用“MxN”方案,M層是大模型,N層是各種國內外晶片,可以透過運算元最佳化、自動編譯、不同晶片耦合等技術一鍵部署模型,支援Baichuan2、ChatGLM3、Llama2、Qwen系列等20多個模型,在AMD、華為昇騰、天數智芯、沐曦、摩爾線程、NVIDIA等六種異構晶片上混合訓練,算力利用率最高達97.6%。 無問芯穹希望解決國內AI領域存在的“生態豎井”難題,雖然不同晶片組成的算力構成了叢集,但在生態邏輯上,整個軟體棧並不能夠很好地協調和打通。無問芯穹構建的是一個AI Native基礎設施,可以適配中國獨特的多模型、多晶片生態格局,將多種異構算力構建成大系統,快速完成大模型的訓練和推理。 受限於晶片禁令,國內在單池超大規模叢集建設上面臨困境,只有幾個網際網路大廠和電信運營商有晶片儲備和技術能力,而根據大模型的Scaling Law(尺度定律),至少在現有路徑上,更多的算力才能造就更多的智慧湧現。 電信運營商也開始尋找另外的方向,以網強算。“我們已經在實驗室實現了百公里內的並池計算。”劉敬謙告訴記者,為了突破單池算力限制,中國電信正在嘗試利用400G/800G的超高寬頻將兩個位於不同區域的實驗室,無損高速連線起來,同一個預訓練任務可以同步部署在兩個相隔百公里的實驗室裡,而且連續訓練時長與在同一個物理資料中心內訓練相當,“下一步,我們還將在京滬兩個單池萬卡群間進行超高速直連測試”。 一旦實驗成功,將大大緩解國產大模型的“算力焦慮”。GPT-4模型有2萬億引數和8萬億token,10000顆英偉達H100,需要訓練三個月,換成最新的超級晶片BX200,10000顆晶片只需要10天。而受限於產能,目前能夠穩定供貨萬卡以上的國產晶片並不多。如果資料中心間網速能夠幾乎等同於資料中心內部高速互聯,此前全國各地零散建設的地方智算中心,將可被有效利用。 多路徑破局“鐵幕”的嘗試,讓國產算力和國產大模型的春天悄然而至。