

作者 | 程茜
編輯 | 漠影
當下大模型的焦點無疑是火遍全球的DeepSeek,但其本質上是純語言模型,多模態大模型賽道的戰火同樣火熱。
智東西2月18日報道,今天,崑崙萬維開源中國首個面向AI短劇創作的影片生成模型SkyReels-V1、中國首個SOTA級別基於影片基座模型的表情動作可控演算法SkyReels-A1。
影片生成模型的競爭已攀升至全新高度。
SkyReels-V1基於混元大模型訓練,是Human-Centric Video Foundation Model(以人為中心的影片基礎模型),支援文生影片、圖生影片,效能可以對標快手可靈、MiniMax海螺AI等閉源模型,微表情還原、專業運鏡、好萊塢級的畫面構圖通通可以一鍵完成。
這兩大模型的能力目前可以在崑崙萬維的AI短劇平臺SkyReels上體驗到,該平臺主頁下方已經出現了不少複雜任務的生成例項,各種好萊塢大片即視感的影片被不少使用者在幾分鐘之內創作了出來。

▲SkyReels平臺主頁
當下影片生成領域應用頗為火爆的就是AI短劇,SkyReels包圓了從劇本生成、分鏡、BGM到人物對白等各個環節,“一個人拍爽劇”成為現實,一舉拉低了短劇創作的門檻,加速了影片生成模型的應用與普及。
這一背景下,SkyReels-V1影片大模型的驚豔效果實際表現如何?真的人人都能成為短劇創作者嗎?帶著這些問題,智東西搶先體驗了崑崙萬維全新升級的AI短劇生成平臺SkyReels。
01.
一鍵拍短劇!懟臉鏡頭表情不崩
運鏡、構圖是好萊塢級別
春節檔爆火的《哪吒之魔童降世》票房衝破百億,很多使用者圍繞著哪吒2的主演開啟了影片生成二創。
SkyReels的圖生影片效果自然也不在話下。我上傳了一張哪吒乘坐“飛天豬”變成的車的靜態圖片(影片上方的靜態圖)後,輸入提示詞,哪吒開車的同時頭髮隨風飄揚的細節也被完整呈現了出來,並且飛天豬腳底的“風火輪”也出現了火的元素,人物與畫面背景十分協調。
回顧影片生成模型剛剛誕生之時,使用者在體驗相關產品時往往會面臨生成速度慢,且生成效果與使用者提示詞大相徑庭,人物表情生硬、不自然等情形,如今隨著技術的發展,崑崙萬維SkyReels、快手可靈、MiniMax海螺AI等諸多產品的升級迭代使得影片生成模型的可用性大大增強。
首先,對於影片、短劇而言,人物的微表情是一大難關。一般而言,人物的微表情持續時間短且變化幅度小,但對於傳遞人物真實情感至關重要。
SkyReels生成的醫院場景影片中,病床上男主與旁邊女主的對話過程中,兩者的表情變化都十分自然。可以看到,懟臉鏡頭女主的表情也完全不會崩,伴隨著聲音哽咽女主在抿嘴時下巴還會輕微顫動。躺在病床上的男主在說話時,臉上和脖子上的皺紋、皮膚也會隨之變化。這些細節的變化處理,正是準確傳達人物當下感情的關鍵。
第二點就是用鏡頭語言來增強畫面的故事感。一段影片中往往會透過不同機位來刻畫重點,如透過大全景來呈現事件發生的地點,或移動鏡頭到不同的人身上,體現畫面主體的變化。
例如下面這一段影片中,先由教堂的場景引入,顯示男主所處環境,然後透過場景的轉移、周圍人物的變化交代男主身份。女主出現的劇情同樣如此,透過環境與人物特寫等助推故事情節發展。在男女主對話的過程中,鏡頭會跟隨說話主體給到主角特寫。
第三點就是畫面中的人物站位、構圖以及畫面主體的切換等,在真人拍攝中往往需要演員、導演的相互協同,同時還要搭建場景或者藉助天氣來達到最佳拍攝效果。現在AI可以隨時隨地就能做到。
正如下面影片中,鏡頭的轉化絲滑,剛開始主角的聲音伴隨著回憶鏡頭中穿插切換家人的合影、躺著的小女孩、奔跑的傷員等,豐富了故事細節,隨著鏡頭的緩慢移動,出現主角人物,再用特效切換畫面,由人物到最後復仇的場景。
如此逼真豐富的故事細節,影片生成模型可以基於對文字的理解自己生成,從來形成一個完整的短劇作品。
可以看到,在人物表情、鏡頭切換以及畫面構圖方面,SkyReels生成的效果都有了顯著提升。
02.
影片生成模型關鍵突破:
生成精準、速度更快、結果可控
SkyReels平臺升級背後的核心,正是崑崙萬維最新發布的SkyReels-V1影片大模型。
影片生成賽道發展至今,已經從經常“翻車”、簡單的PPT式畫面,進化為流暢、有鏡頭變化、角度轉移的流暢影片,對於AI短劇而言,使用者更關注的是生成人物的微表情,才能準確傳遞劇情,因此對於微表情、精準可控的生成效果要求更高,如何精進生成效果讓使用者拿來即用成為擺在影片生成模型玩家面前的難題。
在生成影片、短劇時,最為關鍵的要求就是生成精準、可控性高且推理、生成的速度足夠快,這同樣是SkyReels-V1影片大模型背後技術的核心殺手鐧。
首先在生成精準方面,影片生成要精準呈現人物微表情、同時需要把握整個畫面的合理構圖、細微的光影變化等諸多要素。
目前,SkyReels-V1已經可以支援33種細膩人物表情與400多種自然動作組合,可以高度還原人物的大部分表情。同時其背後的訓練資料是好萊塢級的影視資料,畫面的構圖、演員站位、相機角度都更具電影級質感。
下方影片中哭泣的女生,從眼眶微紅、眼含熱淚、嘴角顫動、蹙眉道鼻子微紅、頭髮擺動,都充分顯示了她當下的悲傷情緒。
讓人物的表情、動作、畫面構圖、以及鏡頭語言的逼真表達背後,就是崑崙萬維自研的人物智慧解析系統,其中包含影視化表情識別體系、人物空間位置感知、行為意圖理解、表演場景理解。
該系統的綜合作用下,模型可以實現11種人物表情理解,準確表達不屑、不耐煩、無助、厭惡等表情,同時基於人體三維重建技術,實現影視級的人物站位以及人物行為的精準理解,同時人物-服裝-場景-劇情之間形成關聯分析,最終使得影片效果保持完整、連貫、逼真。
可以看出,在下方短短4秒的影片中包含了諸多關鍵元素。只有背影的人物在說話時身體微微顫動,露出正面的人物眼神變化、微微蹙眉都傳達了其的感受,還有男主肩頭光影的變化,讓人物與周圍環境產生了交集。
生成精準還體現在精準可控的人物影片生成,生成的影片準確提取了Driving Video中的表情、動作特徵,從講話的口型、五官的變化甚至到頭部的輕微擺動都完整復刻了出來,但Runway在生成這個影片時沒有成功。
即使是與Driving Video完全不同的臉部角度,生成的影片效果也能準確呈現表情的生動變化。相比於Runway的生成效果,可以看出SkyReels-A1生成的影片表情更加豐富,講話過程中不僅有眉毛眼睛的變化,還呈現了額頭皺紋,人物效果更為逼真。
其二就是速度,影片生成的速度對於使用者的體驗感知也是一個重要影響因素。基於崑崙萬維自研的推理最佳化框架SkyReels-Infer,SkyReels-V1實現544p解析度推理,基於單臺4090只需80s,同時支援分散式多卡並行,支援Context Parallel、CFG Parallel、和VAE Parallel。
在RTX 4090同等規模下,推理生成544p影片,崑崙萬維的方案端到端延遲優於影片生成大模型HunYuan Video58.3%。
為了降低使用者本身硬體效能對生成速度的影響,擴大體驗到更快推理速度的使用者群體,崑崙萬維採用諸多策略滿足低視訊記憶體使用者級顯示卡執行需求以及最佳化延遲,如採用FP8量化以及引數級解除安裝,支援Flash Attention、SageAttention、模型編譯最佳化等進一步最佳化延遲。
同時為了讓使用者UGC影片生成的內容更加精準可控,研究人員開源SOTA級別的基於影片基座模型的表情動作可控演算法SkyReels-A1,對標Runway的生成式角色表演工具Act-One,實現電影級的表情捕捉。
影片中的女生雖然左右大幅度擺動了頭部,但臉上驚恐的表情從始至終都被準確呈現了出來。
而這樣的影片生成效果,基於崑崙萬維自研的核心技術,使得使用者在自己的電腦上也可以輕鬆實現,高性價比、生成可控正是其優勢所在,低成本的AI短劇潮湧起已經成為現實。
反過來看,自研技術進階與綜合產品佈局,也正在驅動崑崙萬維成為影片生成模型應用領域的領跑者。
03.
大模型技術創新、應用落地兩開花
堅持開源策略
短劇爆火的風,已經吹到了影片生成平臺之上,使用者也開始探索自制短影片。
去年8月,崑崙萬維釋出的AI短劇產品SkyReels就是影片生成工具的集大成者,包圓了從劇本創作到短劇成品的各個步驟。
SkyReels平臺集成了崑崙萬維自研劇本大模型SkyScript、自研分鏡大模型StoryboardGen、自研3D生成大模型Sky3DGen、以及業界首個將AI 3D引擎與影片大模型深度融合的創新平臺WorldEngine。
SkyReels能夠透過AI一鍵生成完整劇本、分鏡、人物對白與BGM,支援角色形象、音色與分鏡的自定義調整,並能夠自動將內容轉換為1080P 60幀的高畫質影片,單次可生成影片長度達180秒。

▲SkyReels短劇創作主頁
使用者可以將短劇靈感、指令碼或者小說上傳到平臺之上,SkyReels就會自動分析內容生成相應指令碼以及對應的主要人物角色,不滿意的話還可以重新裝置聲音和角色形象等。最後SkyReels會將不同鏡頭的指令碼進行合成,形成一部完整的短劇,這些過程中使用者都可以根據自己的需求隨時修改。
短影片平臺中的短劇以高密集爽點為核心,融合了復仇、重生等多種型別,基於此,崑崙萬維還構建了億級的高質量短劇結構化資料集SkyScript-100M,其針對海量精彩短劇的劇情節奏、爽點、情緒變化進行了高質量標註。
SkyReels當下是影片生成模型大規模應用的一大創新方向。一方面,這一綜合性的短劇產品降低了短劇的製作門檻,激發使用者的創作興趣;另一方面,SkyReels平臺同樣也是大模型能力落地到應用產品上的有效路徑。
這些成果不僅是崑崙萬維技術實力的有力證明,更體現了其在AIGC時代正成為重要的風向標。
2023年4月,崑崙萬維提出“All in AGI和AIGC”戰略,不侷限於單一的產品或技術,而是構建一個完整的AI生態系統,逐步了形成AI大模型、AI搜尋、AI音樂、AI社交、AI遊戲、AI短劇六大業務矩陣。並且在國內多次首發國內第一款AI細分應用創意新品,從國內第一款AI搜尋產品“天工AI搜尋”到國內第一款AI音樂生成產品“天工SkyMusic”。
事實上,崑崙萬維在AIGC和大模型領域的佈局可以追溯至2020年,並且研發投入一直處於領先水平。崑崙萬維2024年第三季度的財報顯示,其前三季度研發費用提升至11.44億元,同比增長高達84.47%。
當下,該公司已經完成“算力基礎設施—大模型演算法—AI應用”全產業鏈佈局,在戰略佈局、技術積累、對市場的精準洞察綜合作用下,崑崙萬維在大模型產業上的優勢逐漸增大。
更為重要的是,當下DeepSeek爆火再次引發了業界對開閉源模型的思考,諸多企業由閉源轉向開源,崑崙萬維一開始就十分重視開源生態,
早在2022年,崑崙萬維就開源了崑崙天工AIGC全系列演算法與模型,此後又開源了開源2000億稀疏大模型Skywork-MoE 、4000億引數MoE超級模型、數字智慧體全流程研發工具包AgentStudio等。
其一以貫之的開源策略,正在加速助推大模型生態的健康、快速發展。
04.
結語:崑崙萬維用全棧AI佈局
為AGI時代裝上加速引擎
崑崙萬維堅持“All in AGI與AIGC”戰略佈局的同時,已經有了不少的行業應用成果,在其開源策略的佈局下,這些成果正在加速國內大模型產業的發展。崑崙萬維堅持自研核心技術突破,到如今亮相了實力強勁的開源影片生成模型,在影片生成的諸多關鍵領域實現了飛躍。同時,在大模型應用方面,崑崙萬維的嘗試也給了大模型殺手級應用誕生指明瞭路徑。
以往短劇創作需要專業的編劇、導演、攝像、演員等團隊協作,以及較高的資金投入。而SkyReels-V1、SkyReels-A1的出現正在打破這樣的創作流程,滿足更加多樣化、個性化的創作需求。隨著SkyReels這樣產品的出現以及效能的提升,將使得AI短劇的創作生態逐漸成熟,最佳化模型效能,提升短劇質量,從而推動整個行業的技術創新和內容創新。
在大模型應用的探索之路上,崑崙萬維已經走在了行業的前列。隨著影片生成模型在流暢性、真實性、解析度等方面的進一步提升,以及動作準確性、場景邏輯性等問題逐步改善,影片生成的應用將大有可為。尤其在當下熱度頗高的短劇領域,SkyReels這樣的產品能幫助使用者將創意快速轉化為短劇作品,使得創作更加自由化、大眾化,,有助於推動短劇內容生態的建設,重塑AI短劇行業。
可以肯定的是,首個AI短劇創作模型的釋出已經讓我們看到了大模型技術的巨大潛力和無限可能。再加上開源模型SkyReels-V1、SkyReels-A1被廣泛應用於各個行業和領域,即使沒有強大研發團隊和大量資金支援的個人或小型團隊也能獲取先進的影片生成技術,從而推動通用人工智慧時代的加速到來。

(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)
