2024 年,隨著生成式 AI、多模態大模型、全景直播、三維重建等技術逐漸落地行業,我們從流暢、即時、高畫質的數字影片世界逐步進入更智慧、互動性更強、沉浸感更強的的 AI 影片世界。這是一次行進中的音影片革命,我們能從諸多痕跡,驗證它的進展:
-
據 ResearchAndMarkets 預測,到 2027 年,全球影片流媒體市場規模將高達 1843 億美元,這一驚人的資料充分彰顯了影片產業的蓬勃發展態勢;
-
XR 裝置出貨量年增 35%,虛實融合的"空間網際網路"逐步成型;
-
2024 年央視春晚採用 XR 技術,圍繞舞臺效果進行了設計,並驗證落地;
-
……
以上並非終局,事實上,生成式 AI 正在進一步擴充套件影片流媒體領域的市場天花板。
內容生產正從 UGC/PGC 發展到 AIGC,內容的生產量將呈幾何倍數的增長。有資料顯示,AIGC 工具將影片創作門檻降低 90%,預計 2027 年全球短影片日產量突破 50 億條;使用者的互動空間也在從 2D、3D,VR 拓展到了虛擬世界與現實世界的無縫融合。
這一系列新需求,對影片編解碼技術的要求是:在頻寬不變的情況下,畫質更優;同等畫質下,儲存和傳輸成本更低。
最新一代影片編碼標準 H.266/VVC 正是在這種背景下,走入“舞臺”中央。作為支撐龐大影片產業的核心關鍵要素,H.266 在流媒體生態中起著舉足輕重的作用。
H.266 的重點應用場景可分為三個部分:點播、直播、RTC。雖然 H.266 硬解碼器的支援正在逐步增加,但目前市場上硬解支援 H.266 的裝置相對較少,尤其是一些移動終端。因此,最佳化 H.266 的軟體解碼器就顯得尤為重要。
其中,點播編解碼更注重壓縮效率與畫質平衡,H.266 的核心優勢在於壓縮效率提升約 50%。透過四叉樹加多型別樹(QT+MTT)分塊法和色度分量雙樹編碼,H.266 能更精細地劃分編碼單元,減少冗餘資料。例如,在 4K/8K 影片中,128×128 的編碼樹單元(CTU)相比 H.265 的 64×64 單元,顯著提升大解析度影片的編碼效率。
在動態範圍與色彩支援方面,H.266 的 Main10 Profile 原生支援 10bit 色深和 HDR,解決了點播內容在寬色域和高動態範圍下的色彩斷層問題。
直播則更看重即時性與複雜度平衡,因而對編碼速度要求苛刻,H.266 的編碼複雜度較 H.265 增加約 10 倍,可透過硬體加速(如 GPU 或專用晶片)實現高效即時編碼,這點與當下新型算力中心的構建思路相通,適合複用冗餘的、低功耗的 GPU 算力。
RTC (即時通訊)更關注低延遲與互動最佳化,要求端到端延遲低於 100ms。H.266 透過多種技術手段提升運動向量預測(HMVP)和編碼(SMVD) 效率,提升編碼效率,降低重傳率。
針對視訊會議中的 PPT 共享、白板協作等場景,H.266 引入幀內塊複製(Intra Block Copy)技術,直接複用螢幕內容中的重複塊(如文字、圖表),壓縮效率提升 40%。
此外,H.266 的環繞運動補償(Wrap Around Motion Compensation),也可以最佳化 360 度影片的邊界連續性。
這些特性使得 H.266 已經成為影片企業必選的技術棧、必做的標準升級。有資料顯示,2026 年支援 H.266 硬解裝置將超 20 億臺,推動 8K/VR 內容普及。唯一的問題在於,直接使用開源軟體做簡單定製,還是基於付費版商業軟體來構建業務。
我們必須考慮到,對比十年前,影片編解碼領域的實力派玩家,數量增加了,其中最重磅的,非字節跳動及火山引擎莫屬。
位元組及火山在影片業務上有積累獨到的 Know-How ,且在技術上的嗅覺足夠敏銳,這賦予了位元組及火山自研的 H.266 系列產品誇張的效能表現。比如,從官方資料口徑來看,火山引擎 H.266 解碼器的計算複雜度幾乎只有 VTM-23.5 的四分之一到七分之一,是 FFmpeg 7.1 的三分之一。
本專題將首先回顧 H.266/VVC 的技術沿革,而更多、更詳細的效能指標對比和技術解讀,將在接下來的章節中逐步展開。專題末尾,我們會單獨提及火山引擎對點播、直播、RTC 場景下編碼器及解碼器的最佳化工作。
我認為這個技術專題,對於即將基於 H.266 標準構建影片流業務的團隊,有著極強的借鑑意義,也幾乎是一名技術決策者,在完成技術選型前,所必須參考的資料。