這屆春晚開始拼技術了!AI大模型絕美定格、機器人扭秧歌,雲使用量達歷年之最

作者 | 褚杏娟  
“春晚的每次彩排,我們都會安排同學參與。”今年春晚彩排現場出現了很多程式設計師,這些就是阿里雲的春晚專案團隊。
這是阿里雲第一次作為雲計算和 AI 的獨家服務商的身份參與春晚。為保障春晚順利進行,阿里雲在北京、杭州分別設立了專案作戰室,並有工程師在春晚現場支援節目製作。
阿里雲主要為春晚提供兩部分技術支援:一是阿里云云轉播技術支援全球華人云上看春晚,二是阿里雲通義大模型技術支援春晚節目創新,創新視聽效果。但無論哪種支援,都需要大量的計算資源。“今年雲資源的使用量非常高,可能會達到歷年春節的峰值。”
看得見的 AI 大模型技術
莫文蔚和毛不易合唱的《歲月裡的花》贏得了不少網友好評。“真的好聽,畫面佈置得也很好,後面也很驚豔。”節目演唱落下尾聲時,舞臺畫面定格變成了一幅油畫,無限歲月靜好,讓網友直呼“絕美”。
油畫定格的效果正是依託阿里雲通義萬相 2.1 的能力,透過 AI 影像生成、影片生成、影像編輯等 AIGC 技術,生成對應主題的元素與背景,增強節目舞美的視覺表現力。通義萬相 2.1 模型在本月贏來了一次重磅升級,在大幅度複雜運動、物理規律遵循、藝術表現等方面實現全面提升,能夠實現影視級畫面生成質量,在釋出後就登頂第三方權威榜單 VBench。
據介紹,通義萬相使用時空全注意機制,讓模型能夠更準確地模擬現實世界的複雜動態;團隊還引入了引數共享機制並針對文字的嵌入進行最佳化。在影片 VAE 方面,通義萬相設計了一種創新的影片編解碼方案,透過將影片拆分成若干塊(Chunk)並快取中間特徵的方式,實現視訊記憶體的使用與原始影片長度無關,從而能夠支援無限長 1080P 影片的高效編解碼。
此外,人形機器人也在春晚炸場,藝術與科技結合得讓很多網友眼前一亮。知乎網友稱“這個實話說屬於表現力遠低於技術力。技術上兩足機器人保持平衡就已經是很大的課題,但是春晚這種舞臺上應該是外行人也能理解的牛逼。”
根據宇數科技介紹,表演機器人依據舞蹈要求設計動作,靠AI訓練來執行16臺H1雷射SLAM定位,全自動走位變隊形快速轉、拋手絹結構複雜,還需緊湊且可靠舞臺不平有縫隙。為凸顯機械感的整機骨架設計,團隊去掉了所有外皮殼體。
創新視覺
甄子丹領銜的《筆走龍蛇》武術表演,有網友對這個節目讚不絕口:“今年春晚最愛的節目!”這個節目中出現了“空中環繞、時空凝結”等創新視角,這就是阿里雲 AI 在本次春晚投入最多的“子彈時間”特效影片。
“子彈時間”技術,也叫“雲上 AI 多視角呈現”,採用了通義大模型技術增強的全新轉播技術,具有如下特點:
  • 多視角。傳統拍攝以單視角為主,視角的變化需要透過攝像機角度變化來實現,而多視角技術利用相機陣列進行多角度拍攝,力求 360 度全方位保留節目細節;
  • 3D 建模還原細節。利用雲計算和 AI 大模型演算法進行 3D 建模、3D 重建,完整還原節目的細節。
  • 虛擬運鏡呈現最終效果。利用智慧虛擬運鏡手法實現“時空凝結、移步異景”等立體視效。
實際上,這並不是一個全新的技術,央視也並非第一次使用。
以往的“子彈時間”技術主要基於影片插幀技術(2 維影像處理技術)和深度影像渲染技術(傳統 3 維處理技術),本次春晚則主要使用了三維重建與神經體渲染相結合的技術,分別對場景進行稀疏表達和稠密表達,這兩種技術同屬於空間智慧技術,是通義 AI 能力的一個重要組成部分。
阿里雲影片雲負責人致凡表示,與之前相比,阿里雲這次使用了更少的裝置(攝像頭),在雲端完成了整個製作過程,真正發揮了雲計算的處理能力。
30 臺相機採集資料
阿里雲和央視總檯聯合首次在春晚演播大廳部署由 30 臺相機陣列組成的雲上多視角拍攝系統。專案組進場前設計了多套解決方案,並提前將這些方案在 3D 模型中進行充分的場景模擬和效果比對,從而使導演組能夠快速選定將 30 臺 4K 超高畫質相機架設在距離舞臺又高又遠的位置,推出全新的“演播廳天空環繞視角”。
子彈時間的拍攝視角是從近乎三層樓的高度進行拍攝,這種全新視角可以根據不同節目需求靈活切換角度,還避免了對舞臺佈局的干擾。而且,這種高空拍攝方式更加靈活,無需頻繁拆卸裝置,降低了成本。
致凡坦言,相機問題面臨的挑戰要比奧運會更大。
春晚節目非常豐富,但不同節目對燈光、景別等要求差異很大。團隊需要監控每個節目的燈光變化並動態調整相機的引數,否則就會出現閃爍、不同步等問題。團隊還需要根據不同的節目特點重新調整鏡頭設定,比如舞蹈類節目要聚焦在中心位置,而技巧類節目中演員位置會比較高。這是一個不斷最佳化的過程,一步步接近導演想要的效果。
30 臺攝像機並非專業廣播級攝像機,而是普通的商業級別裝置。這帶來成本、靈活度優勢的同時,也讓像相機快門、光圈、焦距等會容易受到舞臺上其他攝像頭影響。因此,團隊做了大量的工作,包括背後的軟體監控和檢測,發現有弧光等問題的鏡頭則將其刪掉。
另外,相機裝置還有過熱的問題。奧運會比賽有休息時間,但春晚彩排時為保證所有裝置都能正常執行,相機一直處於高負荷狀態,很容易過熱。因此,團隊為裝置增加了自適應功能,以此判斷一些關鍵節點是否過熱,如果存在就讓其自動重啟。這種方法確保直播時不會因為裝置問題而錯過重要畫面。
相機數量越少,要重建出高準確度、高精確度畫面的難度就越大,對演算法的要求也就越高。這次春晚上的 30 臺攝像機相對巴黎奧運會而言,硬體數量縮減 70%,這是團隊在相機數量、演算法最佳化和成本之間平衡的結果。如果相機數量再減少,雖然成本會降低,但其他地方可能會出現瑕疵;如果再增加相機數量,演算法的複雜度會降低,但成本就會變高。
更重要的是,超高速相機在拍攝子彈時間影片時,必須確保每個相機採集到的畫面在時間上絕對同步,這樣 3D 演算法才能實現理想的視覺效果。團隊採用了多種技術手段,包括使用時間戳軟體、調整硬體裝置以及相機的引數指標,來確保所有相機在任何時刻都能同步。
演算法難度增大
“奧運會用的演算法可以看作版本 2,春晚後則進入版本 3。隨著版本不斷迭代,演算法通用性大幅提升,這也是我們的目標。”通義實驗室應用視覺實驗室負責人薄列峰說道。
演算法最佳化過程中,團隊增加了獲取三維表達的時間。這一時間的增加與解析度等具體需求密切相關。在春晚場景下,團隊透過並行最佳化技術,如多卡並行處理,滿足春晚對演算法推理時間的要求。
與奧運會中的子彈時間不同,春晚專案涉及多種物體,包括透明物體和絲帶型物體等,這些都對演算法提出了挑戰。團隊的很大部分時間用在了研發自有演算法解決方案上。這個過程中,團隊會針對某一類問題進行演算法最佳化,比如對傳統服飾中的絲帶類元素而非絲帶本身。
視覺效果上,阿里雲採用了 AI 大模型的 3D 建模和 3D 渲染技術,並結合本地傳統的視覺特效演算法進行疊加,改變了以往單一的鏡頭軌跡,還加入了動靜結合的元素,比如鏡頭的移動、變焦、快放和慢放等,讓畫面更加豐富多樣。
進行 3D 建模時,輸入的資料是 30 個相機拍攝的照片。在建模過程中,首先要保證模型的完整度和真實度,觀看時不能出現視覺上的陰影、模糊或不自然的地方。團隊為此進行大量的演算法最佳化,使模型看起來更加自然。
本次使用的技術方案還允許使用者在時間和空間兩個維度上更加自由地運鏡,實現以往專業攝影師才能做到的高階運鏡效果。而最終的效果由導演來稽核。只要創意與導演想法一致,演算法完全可以保障最終效果達到要求。
技術團隊和春晚導演組之間有一個互相交流和打磨的過程。前期,技術團隊會先給導演看影片小樣,導演充分了解技術團隊能力後會提出新的需求,技術團隊再針對這些需求迭代演算法或增加新效果。
不錯的影片效果會得到導演組的讚許,導演之間也會進行互相交流和推薦,比如有的武術導演會把這種效果推薦給舞蹈導演。這也是致凡在參與春晚專案中印象深刻的地方。
“這種互動能夠促進我們和導演之間的合作,我們的能力會激發導演的靈感,讓他們突破傳統拍攝視角、嘗試新的方式。每次合作,他們都會有一些新的想法。這是一個互相交流、互相促進的過程。”致凡說道。
實際上,所有效果都在雲上完成,製作速度非常快。無論是要改變、刪除還是增加一個效果都能迅速實現,導演可以很快看到反饋並提出想法和意見。
致凡表示,“最後幾次排練時,導演已經對我們非常熟悉了,他甚至能自己想象出一些想要的效果,有的導演還會和我們一起挑選高燃片段。”致凡說道,“對於央視來說,這也是一種比較靈活的安排,我們的存在並不會影響到他們彩排。”
播出背後的保障
這次蛇年春晚在境內新媒體端的即時直播收視次數和互動量均創新紀錄。據初步統計,新媒體端直點播收視次數 28.17 億次,比去年同比增長 6.9 億次。“豎屏看春晚”直播播放量 4.96 億次,較去年同時段提升 18.09%,直播使用者人數達 2.86 億人,較去年同時段提升 14.4%。
春晚對節目畫質和效果的要求更高,需要全鏈路 4K HDR 的畫質、500M 的超高畫質位元速率。從資料量上來說,它比巴黎奧運會的傳輸要求大得多,這對網路傳輸和雲端計算的挑戰也很大。
阿里雲團隊透過 HDR 處理和智慧編碼等演算法的結合,最終達到央視的播出效果。
在傳輸和採集過程中,每個相機都需要同步採集並傳輸資料,這些資料量本身非常大。而且,處理的影片都是 4K 解析度的,全部採用 4K HDR 格式,這意味著當 30 臺相機同時傳輸影片,每臺相機每秒 30 幀的影片資料匯聚在一起後,處理的計算量會非常大,網路傳輸速率的要求也會非常高,另外還需要不斷儲存這些資料。阿里利用雲的彈性資源以及 GPU 算力來應對這種大規模的網路傳輸和儲存需求。
值得注意的是,真正的 4K 畫面和真實視角並不是透過簡單的生成技術就能實現,而是需要實實在在地拍攝。AI 的作用主要是處理拼接以及解決重建過程中的各種效果問題。
巴黎奧運會的子彈時間影片是純即時生成的。而這次春晚採用的是 4K 技術,資料量比以往大很多。因此,阿里雲團隊採用了兩套方案:第一套是按照央視節目的要求,整體採用 4K 技術;另外則是將影片降低到 1080p 解析度,製作一些簡單效果,給導演進行預覽。導演可以透過預覽大致瞭解效果並提出意見,技術團隊則根據意見進行調整。
“阿里雲在雲端使用彈性資源,可能會用到幾十張 GPU 卡來進行處理,雖然現在還不能做到完全即時,但相比以前,時效性已經快了很多,只是最終效果的生成時間會稍長一些。當然,最終的成片還是要在雲端用 4K 技術製作。”致凡說道。
運維智慧體上線工作
隨著智慧手機和各類新媒體 APP 的普及,越來越多的人開始透過手機開看春晚。央視對於阿里雲的技術要求是“絲滑順暢、萬無一失”。為此,阿里雲透過“雲轉播”的技術方式來實現,讓手機達到電視大屏看春晚的效果。
央視總檯聯合阿里雲推出“雲來雲往”新媒體釋出平臺,成為 2025 年春晚直播訊號遠端分發的主要方式。該平臺是央視總檯和阿里雲在 2021 年時就共同構建的,基於阿里雲的全球基礎設施構建國內和全球轉播服務源站,依靠跨境 CEN 縮小遠端訊號傳輸延遲提升網路可靠性,最後透過 3200 多個邊緣節點把直播流暢地傳送到全球相關持權轉播機構。
今年春晚的直播畫面,透過阿里雲部署在全球的雲基礎設施,從北京分發到全球各地的持權轉播機構,同時滿足 8K 電視大屏、移動小屏等多終端需求,並提供豎屏春晚、三維菁彩聲等觀看體驗。
為保障春晚直播的穩定與流暢,阿里雲建立了一套專屬的重保護航機制:
  • 人力上,阿里雲在北京、杭州兩地工程師進行現場 24 小時值班,為春晚提供不間斷的重保。
  • 技術上,將穩定性保障體系與雲的彈性、高可用等能力相融合,建立從平臺到業務的全鏈路可觀測能力、彈效能力、智慧告警及應急處置能力等,並將現有技術機制與雲維小智(運維智慧體)相結合。透過智慧體與平臺的深度互動,提升雲平臺的可運維性、穩定性,更好地輔助現場工程師提前發現風險並提升應急處置效率。
值得注意的是,雲維小智是阿里雲在 2024 年 9 月份釋出的面向雲平臺運維場景打造的智慧體 ,基於“Qwen2”基礎模型實現,利用更全面、更智慧的知識庫進行業務領域的知識運營。據介紹,雲維小智推薦的運維方案可以覆蓋日常 45% 的場景,此前已經在國家電網和交行開始部署。
本次春晚中,阿里雲還在央視首次採用“上行鏈路雙源站多活,下行鏈路多域名容錯”的先進技術架構,從總檯到不同地域的雙源站同時推流,確保任何時刻至少有一個源站能正常工作,並採用兩個反親和節點資源的直播域名提供拉流服務,讓直播具備全鏈路容錯能力,任何環節故障都不會影響直播,整體可用效能超過了廣播電視專業級傳輸要求。
結束語
春晚已經逐漸成為各大技術廠商的試金石。作為一個重大且不容有失的專案,背後的技術人員投入了非常多的精力和時間,但大家更享受專案成功的喜悅。
“我們的技術能夠滿足導演的高需求,為觀眾提供一場增強的視覺體驗,這種體驗是現實中或透過其他技術很難獲得的。”薄列峰說道。致凡也表示,“這是一個雖然非常辛苦,但很有意義的專案。”
期待明年的技術人助力下一場更加精彩的春晚。
採訪嘉賓:
薄列峰,通義實驗室應用視覺實驗室負責人,負責雲上多視角拍攝“子彈時間”AI 技術
致凡,阿里雲影片雲負責人,負責雲上多視角拍攝“子彈時間”雲技術支撐
 會議推薦
在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下,變革與機遇交織,挑戰與突破共生。2025 年 4 月 10 – 12 日,QCon 全球軟體開發大會將在北京召開,以 “智慧融合,引領未來” 為年度主題,匯聚各領域的技術先行者以及創新實踐者,為行業發展撥雲見日。現在報名可以享受 8 折優惠,單張門票立省 1360 元,詳情可聯絡票務經理 18514549229 諮詢。
你也「在看」嗎?👇

相關文章