1080p飛昇4k,浙大開源原生超高畫質影片生成方案,突破AI影片生成清晰度上限

浙大APRIL實驗室團隊 投稿量子位 | 公眾號 QbitAI
為什麼AI生成的影片總是模糊卡頓?為什麼細節紋理經不起放大?為什麼動作描述總與畫面錯位?
其中一個重要原因在於,現有的開源千萬級影片資料集解析度基本低於1080P(1920×1080),且大部分影片的說明(caption)簡單粗糙,不利於大模型學習。
當主流影片生成模型還在720P畫質掙扎時,浙江大學APRIL實驗室聯合多家高校推出的高質量開源UHD-4K(其中22.4%為8K)文字到影片資料集——UltraVideo,破解了這一困局。
該資料集涵蓋廣泛主題(超過100種),每個影片配備9個結構化字幕及一個總結性字幕(平均824詞)。
作為全球首個開源4K/8K超高畫質影片資料集,UltraVideo配合結構化語義描述框架,讓影片生成實現從“勉強能看”到“影院級質感”的跨越式進化。
團隊基於42K精選影片微調的UltraWan-4K模型,實現三大突破:
  • 原生4K生成:直接輸出4K(3840×2160)解析度影片;
  • 語義精準控制:利用結構化描述實現鏡頭語言控制;
  • 資源高效:僅用LoRA輕量化訓練,單卡可部署。

方法:四階過濾打造高質量4K影片資料集

當前影片生成面臨兩大瓶頸:
解析度陷阱:模型在低清資料訓練後,直接生成4K影片會出現嚴重失真。如圖2所示,naïve Wan-T2V-1.3B在1080P生成時畫質顯著下降,而提升到4K(2160×3840)解析度時完全失效。
語義鴻溝:簡單文字描述無法很好地細緻控制主題、背景、風格、鏡頭、光影等影視級引數。
然而,以電影級應用為目標的4K/8K內容生成急需超高畫質資料與結構化語義影片描述指導。
UltraVideo透過嚴苛四階篩選實現影片質量躍遷:
源頭把控:人工從YouTube精選5000部4K/8K原片,時長從1分鐘到2小時不等,並對影片進行二次人工稽核,以確保儘可能避免低質量、模糊、水印和抖動等問題,在源頭把控影片質量而減少後續流程的漏檢負載。
統計資訊過濾:去OCR字幕、去黑邊、曝光/灰度檢測淘汰劣質影片片段
模型二次過濾:影片美學評估、時序運動打分、影片-文字一致性排序、基於MLLM的16種常見影片缺陷過濾。
結構化描述:基於Qwen2.5-VL-72B自動化caption管線,生成9類語義標籤(鏡頭運動/光影/氛圍等),並透過Qwen3-4B彙總總結描述(每個影片平均824個單詞)。
最終,團隊獲得了3s-10s的42k短影片和10秒以上的17k長影片,其中8K影片佔比22.4%,以支援未來更高解析度的研究。
影片的主題多樣性對影片模型的訓練效果至關重要。團隊對Koala-36M的標題進行了名詞統計,經由LLMs和人工處理確認後,獲得了七個主要主題(108個主題),即影片場景、主體、動作、時間事件、攝像機運動、影片型別以及情感。下圖展示了對每個主題下不同主題的片段比例進行的統計分析。

實測:小樣本撬動4K生成

基於UltraVideo資料集,團隊在中小規模的Wan-T2V-1.3B上進行實驗。
團隊驚訝發現,僅用42K包含全面文字的極高影片質量資料就足以顯著提升生成影片的審美和解析度。
由於團隊僅使用LoRA進行微調,並未涉及模型結構的修改,相關經驗可以輕鬆地遷移到開源社群的其他T2V模型上。
此外,由於高解析度需要更多的計算能力導致推理速度變慢,團隊從VBench中隨機抽取了十分之一(≃96)的提示進行測試。
如表4所示,團隊比較了五個模型:(1)官方Wan-T2V-1.3B模型,解析度為480×832(2)將解析度提高到1K(1088×1920)(3)1K全引數微調(4)1K LoRA PEFT。(5)4K LoRA PEFT
結果顯示,
1、將官方模型擴充套件到1K會導致效能顯著下降。
2、基於UltraWan-1K的全引數訓練顯著提升了1K解析度下的生成效果。但與原生模型相比,訓練超引數(如批大小和提示)的差異可能導致其整體結果略差於基於UltraWan-1K的LoRA模型。考慮到訓練成本,研究團隊推薦使用基於LoRA的UltraWan-1K方案。
3、更高的UltraWan-4K模型在影像質量和時間穩定性相關的指標上表現更好。但其較低的幀率(推理使用33幀以確保時間超過1秒)導致某些指標與UltraWan-1K相比有所下降。
團隊基於42K精選影片微調的UltraWan-4K模型,實現三大突破——原生4K生成:直接輸出4K(3840×2160)解析度影片;語義精準控制:利用結構化描述實現鏡頭語言控制;資源高效:僅用LoRA輕量化訓練,單卡可部署。
下圖展示了定性的效果對比。官方的Wan-T2V-1.3B無法直接生成高解析度1K影片,而UltraWan能夠處理語義一致的1K/4K生成任務。
這是首次證明,少量極致質量資料,能突破影片生成的解析度天花板。
在UltraVideo中,透過調整解析度、幀率和音訊,它可以輕鬆適應任何超高畫質環境下的相關影片任務,例如探索低階UHD影片超解析度、幀插值、編解碼器,以及高階影片編輯、逐幀處理、音樂生成。
這項工作不僅填補了高解析度影片生成研究中的重要空白,還透過新穎的資料集構建、先進的資料處理流程和精煉的模型架構推動了技術前沿,為未來UHD影片生成的突破奠定了基礎。
團隊計劃在未來利用長時序子集深入探索長影片生成任務。團隊表示,UltraVideo已全面開源,同時也開源了UltraWan-1K/4K LoRA權重。
論文:https://arxiv.org/abs/2506.13691
專案主頁:https://xzc-zju.github.io/projects/UltraVideo/資料集:https://huggingface.co/datasets/APRIL-AIGC/UltraVideo模型:https://huggingface.co/APRIL-AIGC/UltraWanDemo展示:https://www.youtube.com/watch?v=KPh62pfSHLQ
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章