音影片場景破局,影片雲技術開啟新浪潮

作者 | 雷雨亭
AI 改變的不僅是音影片的創作方式,而在重新定義人們的互動與消費模式。
近年來,隨著大模型的引入,音影片消費場景正迎來新的機遇。與過去相比,智慧語音助手更加智慧化,且能提供更為即時和個性化的響應;影片平臺也開始依據使用者的歷史偏好,自動生成符合個人興趣的影片片段;在賽事直播方面,觀眾可以透過 VR 裝置獲得全新的視角,並藉助 AI 技術分析球員的表現。
這些新興場景不僅對創新能力提出了更高的要求,同時也考驗著影片雲技術的底層支援能力。作為基礎設施,影片雲不能只是支撐內容的生成、處理、傳輸及消費,還需進一步提升以滿足更加複雜的需求。
除了娛樂行業,教育、醫療和金融等專業領域也可能湧現出更為複雜的應用場景,這對影片雲技術的發展方向提出了新的指引,預示著更具挑戰性的未來機遇。
其中火山引擎在影片雲與 AI 融合的實踐中處於行業前沿。在 火山引擎影片雲聯合英特爾中國共同推出的《雲上新視界》第二季 中,深入探討了 AI 時代下影片雲技術的革新與應用,展現了火山引擎影片雲在音影片全鏈路中的創新實踐,以及 AIGC 技術如何賦能音影片領域的新發展。
本文將繼續跟隨 《雲上新視界》第二季 的腳步,深入探討影片雲技術創新所帶來的無限可能性。在面對 AI Bot 的語音互動障礙,如何提供更加自然流暢的人機對話體驗?面對日益增長的多媒體處理需求,火山引擎如何不斷最佳化自身的架構設計和技術能力?在影片直播領域,全新技術的引入是否帶來新的可能性?
1 讓 AI Bot 從“能說話”到“會說話”
近年來,AI Bot 作為一項前沿技術,正迅速成為人工智慧落地的熱門途徑。從智慧客服、辦公助手,到情感陪伴機器人,其應用範圍正在持續拓展。然而,在語音互動場景中,當前的 AI Bot 面臨語音識別不準確、語義理解淺顯及反饋機械呆板等問題,“已讀亂回”現象正在嚴重影響使用者體驗。
在此背景下,釦子平臺推出了全新的智慧語音 OpenAPI,並接入了火山引擎影片雲的 RTC(Real-Time Communication)能力,旨在打造一個更加貼近人類真實交流體驗的 AI 生態。
RTC 是一種支援即時語音、影片和資料傳輸的技術框架,它使用高效的 RTP 協議並結合多種演算法來確保資料的快速、穩定傳遞。相較於傳統的 WebSocket 技術,RTC 在抗弱網能力、全雙工通訊等方面具有顯著優勢。例如,在網路條件不佳的情況下,RTC 仍能保持高質量的通話質量;同時,它允許說話者和聽者在同一時間傳送和接收資訊,使得 AI Bot 可以實現即時打斷功能,極大地提升了使用者體驗的真實性和互動性。
釦子作為熱門的 AI Bot 開發平臺,以其易用性和靈活性飽受開發者好評。使用者無需編寫程式碼即可建立個性化的聊天機器人,並且可以輕鬆部署到不同的平臺或應用程式中。此次引入 RTC 技術,釦子不僅增強了其語音識別和合成的能力,還實現了毫秒級響應時間和流式輸入特性,讓 AI Bot 從“能說話”真正升級到“會說話”。此外,RTC 技術的加入也為釦子帶來了更強的網路適應性和穩定性,即使在網路環境不穩定時也能保證良好的通話效果。
火山引擎影片雲 RTC 技術已經在抖音、飛書等多個平臺上得到了廣泛應用,證明了其可靠性和高效性。特別是在處理高併發請求方面,火山引擎影片雲 RTC 技術表現優異,這得益於自研演算法、精細化裝置適配以及強大的雲端算力支援。
RTC 技術的應用將使 AI Bot 在未來的企業客戶服務和個人消費市場中發揮更重要的作用。企業可以透過定製化設定來構建高度擬人化的客服機器人,提高工作效率和服務質量;而在 C 端市場,如遊戲、教育等領域,即時語音互動將帶來更加沉浸式的使用者體驗。此外,結合智慧硬體的發展,AI Bot 還可以應用於智慧家居等場景,進一步拓展其功能性和應用場景。未來,隨著多模態能力的提升,AI Bot 將在視覺、聽覺等多種感官上實現有機結合,為使用者提供更多元化的服務選擇。
釦子平臺與 RTC 技術的結合不僅是技術上的突破,更是推動 AI 應用實踐落地的重要一步。它不僅滿足了當前使用者對於高質量語音互動的需求,更為未來的創新和發展奠定了堅實的基礎。
2 端側處理興起,輕量級框架正當時
隨著 AI Bot 等 AI 應用技術的不斷創新,使用者體驗和服務模式日益豐富和複雜化,這不僅推動了應用層的革新,也對支撐其執行的基礎設施也提出了更高的要求。
目前,影片生成大模型的訓練規模與預處理計算需求呈指數級增長,市場不僅需要確保這些大模型能夠在雲端高效執行,還要求端側也需具備一定的音影片處理能力,以便與雲端共同應對複雜的計算挑戰。
面對以上需求,火山引擎推出全新端側媒體處理框架——BMF Lite。BMF Lite 是火山引擎基於 BMF 自研端側的通用的多媒體框架的的輕量化版本,歷經三年打磨,目前已應用於抖音、西瓜影片等應用的主要業務場景中,涵蓋播放、推流、圖片處理和雲遊戲等領域。該框架橫跨 Android、iOS、鴻蒙、PC 和 Web 等多個平臺,服務於超過十億使用者,每日處理數萬億次的影片和圖片請求。
在框架層,BMF Lite 強調跨平臺相容性和資源的有效複用。它採用了統一的資料結構設計,確保了 Android、iOS、Web 以及 PC 等多平臺的支援。為了應對資源受限的問題,BMF Lite 引入了演算法控制器來管理演算法例項的生命週期,並透過資源池機制實現了不同演算法間運算元和資料資源的共享。這一設計減少了頻繁建立和銷燬資源所帶來的開銷,特別適用於點播和直播後處理場景,在抖音播放中顯著提升了資源利用率。
BMF Lite 還擴充了客戶端的一些異構能力,涵蓋了 DSP、NPU 以及端側 GPU 等多種計算單元。這不僅提高了計算效率,也為開發者提供了更多的選擇,可以根據具體應用場景靈活調配計算資源。
隨著 AI 影片時代的到來,強大的影片生成大模型成為必要,但其訓練面臨成本、質量、協同和效能等多方面挑戰。BMF 透過與位元組大模型團隊合作,針對海量影片資料進行高效預處理,短時間內生成了大量高質量素材,支撐影片生成模型的訓練、上線及調優。為應對成本挑戰,我們採用潮汐資源和精細化混部排程;質量上,透過 30 多種運算元對影片進行多維度分析篩選;協同方面,BMF 動態模組特性加速了運算元整合與鏈路開發,效率數倍於傳統框架;效能最佳化中,BMF 靈活排程 CPU、GPU、ARM 等資源,實現了快速效能調優,顯著提升了任務吞吐量並緩解了資源瓶頸。
未來,火山引擎計劃推出基於 BMF 的大模型影片預處理方案,該方案將為大模型企業提供一種靈活且低成本的影片預處理服務。企業能夠以更經濟的方式獲取高質量的影片資料支援,加速其模型訓練過程並提升最終模型的表現。
3 “全景式”的直播時代來臨
隨著底層技術的進步和 AI 開發的日益豐富,越來越多影片形式在應用場景中湧現,其中“全景式”的直播體驗正逐漸吸引人們的廣泛關注,影片行業正在向更加沉浸式和個性化的方向邁進。
在影片通訊方面,Google 的 Starline 專案提供了一種如同面對面交流般自然且逼真的視訊通話體驗,使用者甚至能透過身體移動或眼神接觸增強溝通效果,這項技術為傳統的 2D 視訊會議帶來了全新的挑戰;而在 VR 領域,像 Pico 這樣的頭顯裝置則為使用者打造了一個完全沉浸式的虛擬環境,允許他們在目標場景中自由探索和漫遊。這些科幻電影般的場景,其背後的核心力量便是六自由度影片技術,從二維到三維視覺體驗的重大飛躍,為各行各業開闢了創新的機會和發展空間。
與傳統的 360 度全景影片不同,六自由度影片允許使用者在三維空間內進行全方位的移動和旋轉,包括前後、左右、上下三個維度的平移以及偏航、俯仰、側傾三種形式的轉動。觀眾能夠主動根據個人喜好選擇最佳觀賞位置,獲得身臨其境般的沉浸式體驗。
近年來,六自由度影片技術的應用範圍也在不斷擴大。其中,火山引擎影片雲所推出的六自由度直播技術便是對六自由度影片的新升級,有望成為未來數字娛樂與資訊傳播的重要組成部分。
六自由度(6DoF)直播技術透過從資料採集到雲端重建、編解碼再到端側渲染,構建了一條完整的處理鏈路,以此提供沉浸式的多視角觀看體驗。
在資料採集階段,多相機系統獲取的影片流經過時間同步與聚合編碼,形成一路推流至 CDN,並轉發給雲端伺服器。
雲端處理分為兩個主要步驟:第一步是透過訓練的編碼器提取人體特徵,利用 correlation volume 進行多視角影像匹配,恢復深度圖,並藉助多頭注意力機制在稀疏視角下重建初步的人體點雲模型。第二步則生成精細的 3DGS 模型,預測包括透明度、尺度和旋轉在內的高斯屬性,學習不同姿態下的引數分佈,自適應調整高斯體分佈以減少點數,從而渲染出逼真影像。
為了適配現有影片傳輸鏈路,火山引擎開發了一套輕量高效的 3DGS 模型壓縮編碼演算法,將模型流轉化為影片流推送至 CDN。為保證解碼後模型的渲染效果,依據不同高斯屬性分配差異化位元速率,最佳化傳輸與渲染質量。播放端從 CDN 拉取並即時解碼影片資料,還原三維模型進行渲染,支援手機、PC 和 VR 頭顯等多平臺即時互動觀看。在雲端,使用 Nvidia Turing 及以上顯示卡(如 3090)可實現即時重建;播放端如 iPhone 15 能實現 30FPS 以上、個人電腦 60FPS 以上的即時解碼與渲染幀率,影像 PSNR 達 30dB 以上,整體延遲能控制在 200ms 以內,確保幾乎無延遲的直播體驗。
目前,六自由度直播技術已經成功落地火山引擎影片雲的直播服務中。未來,這項技術將會推動更多元化的直播內容出現。
在《雲上新視界》第二季,我們不僅見證了 AI Bot 技術從基礎語音交互向高度擬人化交流的重大跨越,也揭示了多媒體處理框架和六自由度直播技術在提升使用者體驗方面的重要作用。隨著這些前沿科技的深入應用,可以預見未來影片雲技術的進步將會不斷創造全新的可能性,重新定義我們與世界互動的方式。

相關文章