
在 6 月 21 日的華為開發者大會上,華為雲盤古大模型 5.0 重磅亮相。此次,盤古 5.0 在全系列、多模態、強思維三個方面全新升級,並推出了適配不同業務場景的多種引數規格模型。

比如,手機和 PC 上的智慧應用,可以基於 10 億級引數的模型,在端側完成絕大部分任務;少數複雜任務可以透過端雲協同,使用雲上的百億甚至千億模型進行處理。盤古 5.0 還進一步推出了雲上 2300 億的稠密模型和 2.6 萬億的 MOE 大模型,能夠幫助企業更好處理複雜場景以及跨領域多工場景。
除此之外,在現場,華為諾亞方舟實驗室主任姚駿詳細介紹了盤古 5.0 的重要訓練環節,並透露了他們為使盤古 5.0 達到更多模態和更強思維能力所用到的一些“黑科技”,包括資料高效、引數高效和算力高效等方面。
同時,華為雲還分享了盤古大模型在自動駕駛、具身智慧、媒體生產和應用、氣象、鋼鐵、高鐵、工業設計、建築設計、中醫藥等領域的創新應用和落地實踐。
據介紹,盤古 5.0 提供了全系列的大模型,其推出不同引數規格的模型,以適配不同的業務場景。
其中,十億級引數的 Pangu E(Embeded)系列,有 15 億、70 億兩種引數規格,無需聯網就可以執行小的大模型,是嵌入到端側的大模型,可支撐手機、PC、車等端側的智慧應用;百億級引數的 Pangu P(Professional)系列,提供的引數在 100 億到 900 億之間,可以解決大部分 AI 的應用場景,擁有低時延、低成本的優勢。適用於低時延、低成本的推理場景;
千億級引數的 Pangu U(Ultra)系列,有 1350 億、2300 億兩種引數規格,適用於處理複雜任務,可以成為企業通用大模型的底座;萬億級引數的 Pangu S(Super)系列超級大模型有 2.6 萬億引數,是處理跨領域多工的超級大模型,能幫助企業更好的在全場景應用 AI 技術。
在多模態能力上,盤古 5.0 在理解和生成做了提升。盤古 5.0 能夠精準的理解和重構物理世界,能夠支援在 10K 超高解析度的圖片和影片中準確理解微小的細節內容;在生成方面,其採用了業界首創的 STCG(Spatio Temporal Controllable Generation,可控時空生成)技術,聚焦自動駕駛、工業製造、建築等多個行業場景,可生成更加符合物理規律的多模態內容。
理解方面,除文字、圖片、影片外,盤古 5.0 還增加了雷達、紅外、遙感等更多模態。現場,華為常務董事、華為雲 CEO 張平安分別展示了盤古在這些模態層面的理解和識別能力。

首先是衛星遙感影像,盤古大模型能夠準確的分析出區域農作物的生長狀況和收成狀況,可以用於農作物的產鏈預估和整體病蟲害的監測。其次是紅外影像,當可見光沒法看清的時候,盤古大模型可以透過紅外影像準確識別車輛和人的執行軌跡,來進行交通管理和災難防範。最後是雷達影像,盤古大模型能透過可見光和雷達的影像綜合來判斷植被的覆蓋情況,讓生態部門對於自然保護地進行監測。
思維能力上,盤古 5.0 將思維鏈技術與策略搜尋技術深度結合,極大提升了數學能力、複雜任務規劃能力以及工具呼叫能力。思維鏈幫助智慧體(如機器人)更好地理解和預測環境變化,而"策略搜尋"則是智慧體用來適應這些變化並做出決策的過程。兩者共同作用,使得智慧體能夠在複雜環境中進行有效的學習和決策。
值得一提的是,盤古 5.0 的多模態生成能力,還可以為自動駕駛領域提供更高質量的資料支援。張平安表示,盤古 5.0 透過 STC 技術,可以大規模生成和實際場景相一致的駕駛影片資料。
據介紹,其生成的影片不僅在視覺上逼真,更重要的是在車輛行為、環境互動等方面與現實情況保持高度同步。例如,車輛在不同攝像頭視角間的平滑過渡,以及在不同天氣和光照條件下行駛的自然表現,都顯示了模型對空間和時間維度精準把握的能力。尤為特別的是,模型在生成雨天影片時,還能細膩地模擬出車輛尾燈因光線昏暗而開啟的細節。
透過盤古大模型生成的六攝像頭視角影片,自動駕駛系統可以直接獲取到全方位、高模擬度的訓練素材。張平安表示,未來盤古的多模態生成還會支援更多的自動駕駛場景。
“盤古 5.0 如今具備的更多模態和更強思維能力,源於華為雲 AI 算力平臺對模型的高效使能訓練,主要是資料高效、引數高效和算力高效三個方面。”

據姚駿透露,華為雲已經從盤古 3.0 時代的 3T Tokens 的資料,演進到了盤古 5.0 的 10T Tokens 的高質量資料,其中合成數據佔比超過了 30%。其目的是提升資料的利用率,並且用更優質的資料來啟用模型中更多的能力。
“未來合成數據會在更大規模的模型訓練中佔有一席之地,來彌補高質量自然資料增長不足的空缺。”姚駿認為,現在業界大模型訓練資料的規模已經從萬億級 tokens 邁入十萬億 tokens,到這個量級以後,公開的高質量資料的增長就難以跟上模型的體量增長速度了。
據介紹,華為雲探索了優質的、面向高階能力的資料合成方法。簡單來說,就是以弱模型輔助強模型的 weak2strong 方法,採用迭代式的合成高質量資料,保證其有不弱於真實資料的完整性、相關性和知識性。

從姚駿展示的能力圖中可以看到,合成數據的質量從各個維度都略強於真實資料,在質量上對真實資料形成了一個包絡。並且,weak2strong 技術可以進一步加強合成數據中特定的資料,如自然資料中偏少的長序列、複雜知識推理等方面,並透過這些資料來加強模型的特定能力。
盤古 5.0 也演進了模型架構,提出了基於 Transformer 架構的新型大語言模型架構盤古π。
原始的 Transformer 架構和其它深度模型一樣,存在一定的特徵坍塌問題。華為雲透過理論分析發現,Transformer 中的自注意力模組(也就是 Attention 模組)會進一步激化資料的特徵消失。對此,業界透過為原始的 Transformer 增加一條殘差連線,來略微緩解特徵坍塌問題。

在π的新架構中,華為雲進一步提出增廣殘差連線,透過引入非線性的額外殘差,更進一步加大來自不同 Token 的特徵,使資料的特徵的多樣性得以在深度的 Transformer 中得到維持,進而大幅提升模型的精度。
另外,Transformer 包含 FFN 和自注意力模組兩個關鍵模組,華為自研的昇騰晶片更擅長於處理 Transformer 中的 FFN 模組,而對自注意力模組的效率不高。在新的π架構中,其改造了模型中 FFN 模組中的啟用函式,用一種新的級數啟用函方式來代替。這種新方式不僅增加了模型的非線性度和 FFN 的計算量,還可以在精度不變的情況下減少自注意力模組的大小,使得模型在昇騰晶片推理速度也由此提升了 25%。
擴充套件多模態能力的關鍵技術一直以來,多個模態的高效對齊是訓練多模態大模型的一大挑戰。其中,視覺編碼器是多模態大模型處理輸入的第一步,用於將不同類別、大小的影像輸入到同一個表徵空間,相當於語言模型的 Tokenizer 。由於領域的不同,傳統處理影像,影片,文字和圖表時,需要用各自的獨立的編碼器各自接入多模態大模型,這造成了模型容量浪費和計算冗餘。

為擴充套件多模態能力,盤古 5.0 採用了兩個關鍵技術。第一個是統一的視覺編碼器,在盤古 5.0 中,華為將不同的編碼器能力蒸餾到一個統一視覺編碼器中,可以大大提升編碼效率。和同引數量業界 SOTA 模型相比,由於利用了不同領域之間內的共通知識,編碼器在自然影像能力基本持平,文件理解能力上有顯著提升。這種方案現在也成為了業界的主流編碼正規化。
另一個關鍵技術是動態解析度。人看世界有不同的解析度,但模型的輸入一般是固定的,很難兼顧。華為提出了尺度泛化的訓練正規化,首先使用低解析度圖片和簡單任務訓練基礎感知能力,然後使用中高解析度訓練 OCR 和圖表理解等細粒度感知能力,第三階段擴充套件到更高的解析度和更多的任務型別,最後重點突破模型的高階推理能力。
姚駿表示,這種動態遞增的方式幫助盤古 5.0 在動態解析度的表徵上超過業界同等模型,並有效提升了模型在下游多模態任務的能力。
當前在單步任務和文字記憶類任務,如知識問答和考試,大模型已經展現出超過人類的卓越表現。而在多步推理和複雜任務的處理上還沒有達到人類的平均水平,如程式碼生成、數學運算、邏輯推理等。前一種能力叫做記憶型能力,適合於大模型用一步的快速思考進行回答;後一種是複雜推理,模型需要像人一樣,在這類問題上把快思考變成慢思考,一步一步的分解和完成對複雜問題的處理。
從這點出發,華為雲提出基於多步生成和策略搜尋的 MindStar 方法。該方法首先把複雜推理任務分解成多個子問題,每個子問題都會生成多個候選方案,透過搜尋和過程反饋的獎勵模型,來選擇最優多步回答的路徑。這樣既兼顧了人類一步一步思考的形式,也兼顧了機器更擅長的策略搜尋的形式。

據姚駿介紹,在華為自建的難例評測集中,MindStar 方法使模型的平均能力提升了 30 分,使用 MindStar 的百億模型達到業界主流千億模型的推理能力,相當於使用慢思考能帶來 10 倍以上的引數量的加成。
“把 MindStar 這類強思維方法運用到更大尺度的模型上,就能逐步在複雜推理上也接近人和超越人的能力。”姚駿表示。
會上,華為雲推出了盤古具身智慧大模型,搭載盤古能力的人形機器人“夸父”也同步亮相。盤古大模型能夠讓機器人完成 10 步以上的複雜任務規劃,並且在任務執行中實現多場景泛化和多工處理。同時,盤古大模型還能生成機器人需要的訓練影片,讓機器人更快地學習各種複雜場景。

現場,夸父人形機器人透過識別物品、問答互動、擊掌、遞水等互動演示,直觀展示了基於盤古大模型的能力成果。據悉,透過模仿學習策略,華為雲與樂聚公司顯著提升了人形機器人的雙臂操作能力,實現了軟硬體層面的協同最佳化,不僅增強了機器人綜合性能,還克服了小樣本資料訓練的侷限性,推動了泛化操作能力的邊界。
“正如大家所期望的,讓 AI 機器人幫助我們去洗衣、做飯、掃地,讓我們有更多的時間去看書、寫詩、作畫。”張平安表示,除了人形機器人,盤古具身智慧大模型還可以賦能多種形態的工業機器人和服務機器人,讓它們幫助人類去從事危險和繁重的工作。
華為雲推出了盤古媒體大模型,透過在語音生成、影片生成和 AI 翻譯三方面的技術創新,重塑了內容生產和應用的新模式。
透過盤古,可以將實拍影片轉換為不同風格的高畫質動漫。在現場演示的生成影片中,演員的舞蹈、武打等大運動軌跡能保持一致視覺效果,角色的面貌特徵也保持前後一致。
在語音生成方面,盤古大模型透過 AI 原聲譯製與影片生成能力,實現了將原片譯製成不同語言的影片,並保留原始角色的音色、情感和語氣。更為重要的是,盤古還能同步生成新的口型,確保不同語言對應的口型一致,使得跨語言溝通更加自然流暢。
此外,在 AI 翻譯方面,華為雲盤古大模型也對雲會議系統進行了升級。透過基於大模型的語音復刻、AI 文字翻譯以及 TTS 技術,實現了語音的同聲傳譯,這使得不同國家的人在雲視訊會議中可以暢快地使用母語交流。結合數字人技術,在不方便開攝像頭時,使用者還可以透過數字人參會,並透過口型驅動實現數字人以各種語言說話都能精準匹配口型,如同本人說話一般。
過去一年中,盤古大模型已在 30 多個行業、400 多個場景中落地。現場,張平安還介紹了該模型在政務、金融、製造、醫藥研發、煤礦、鋼鐵、鐵路、工業設計、建築設計、氣象等領域發揮的能力。
據悉,目前盤古大模型已經在寶武鋼鐵集團 1880 熱軋生產線上線,將時序資料、表格資料、工藝引數、行業機理等 token 化,顯著降低了熱軋生產線調優時間,預測精度提高 5% 以上,鋼板成材率提升 0.5%,預計每年可以多產鋼板 2 萬餘噸,年收益達 9000 餘萬元。華為雲還與寶武鋼鐵集團在鍊鋼、表檢、新鋼種研發、排程最佳化等多個領域開展盤古大模型的應用研究。
此外,張平安宣佈,盤古氣象大模型再升級,推進至更高難度的公里級區域預報,實現了從全球 25 公里模型向 1 公里、3 公里、5 公里區域預報精度的跨越,包含氣溫、降雨、風速等氣象要素。現在盤古氣象大模型的應用範圍已經延伸至行業服務,擴充套件到汙染物預測、農業生產指導等多個領域。
特別是在環境治理方面,華為雲與天融環境公司合作推出“環境大模型”,將汙染六項的預測準確度全面提升 10%以上,並且將預測視窗從 3 天提前至 7 天,為環保部門提供了更長的預警時間,有助於更加高效地進行汙染源的定位與治理。
除了盤古大模型的升級,華為雲還對昇騰 AI 雲服務進行了最佳化。昇騰 AI 雲服務可實現萬億引數模型訓練 40 天無中斷;平均叢集故障恢復時間 10 分鐘,同時能將大模型的資源開通時間從月級縮短到天級。目前昇騰 AI 雲服務已全面適配行業主流的 100 多個大模型,以雲服務的方式協助開發、訓練、託管和應用模型。

