可靈2.0成“最強視覺生成模型”?自稱遙遙領先OpenAI、谷歌,技術創新細節大揭秘!

可靈 AI 創作者作品
整理 | 褚杏娟、華衛
剛剛,可靈 AI 面向全球正式釋出可靈 2.0 影片生成模型及可圖 2.0 影像生成模型。即日起,可靈 2.0 和可圖 2.0 在全球範圍上線。
“這是你能用到的,世界上最強大的視覺生成模型。”快手高階副總裁、社群科學線負責人蓋坤說道。
根據對比測試,可靈 2.0 文生影片大模型與 Veo2 的勝負比為 205%,與 Sora 的勝負比為 367%(如果兩模型勝負比為 100%,說明兩者水平相當)。可靈 2.0 圖生影片大模型與 Veo2 的勝負比為 182%,與 Gen-4 的勝負比為 178%。
另外,可圖 2.0 文生圖大模型,與 Midjourney v7 的勝負比為 301%,與 Reve 的勝負比為 193%,與 Flux 1.1 Pro 版本的勝負比為 152%。
可靈 2.0 生成效果如何?
快手副總裁、可靈 AI 負責人張迪介紹,現在的影片 AI 生成技術還遠遠不夠,目前創作者們會遇到兩類問題:一類是語義遵循能力在部分情況下能力不夠,妨礙了創作者們用文字精準表達、控制生成結果;二是動態質量問題,包括大家所常說的運動崩壞或者不符合物理規律。
為此,可靈 2.0 影片生成模型在語義響應、畫面質量、動態質量、真實度和美感上都有大幅提升。
語義響應
“一個影片生成模型的語義響應,已經不能用簡單的文字響應來看了,我們希望它有更強的動作響應能力,有更強的運鏡響應能力,有更強的時序響應能力。”張迪說道。
可靈 2.0 完善了 1.6 版本中的表情的動作描述和肢體的動作描述的細節錯誤: 
時序響應指的是在同一個 prompt 裡面,按照時間順序進行分段描述,模型需要按照嚴格的時間順序進行展示。可靈 2.0 在背景延時攝影的完成度都很高:
除了基礎運鏡,可靈 2.0 可以直接用提示詞啟用環繞運鏡、跟隨運鏡、鏡頭組合運鏡等方式:
動態質量
可靈 2.0 重點優化了歷史版本中可能出現慢動作的問題,對於運動速度的把握更加精準:
更合理的運動幅度使得整個畫面的表現張力更好、更有衝擊力:
美學最佳化
在美學最佳化方面,可靈 2.0 可以生成更具電影大片質感的鏡頭,同時讓每一個鏡頭的細節表達更加豐富:
可靈 2.0 在一些細節上的最佳化:
對於可靈 2.0 的生成效果,網友們也給出了很高評價。
”AI 影片的質量一夜之間提升了 10 倍,我已經無話可說了。Kling 2.0 剛剛釋出,我已經花掉了 1250 美元的額度來測試它的極限。我從沒見過這麼流暢的動態效果,也從沒見過對提示詞的理解這麼準確的模型。”PJ Ace 說道。
“相信我,這次模型升級絕對驚豔!現在你可以生成的動態動作數量達到了新的高度。如果您想讓動作更快速,新模型在這方面完全勝任,動作看起來非常自然流暢。”網友 Travis Davids 說道。
一系列技術創新細節披露
“所有的這些能力提升,都離不開整個團隊背後的大量的技術創新。”張迪介紹,可靈 2.0 在基礎模型架構和訓練和推理策略上進行了全新的升級,這些工作使其打開了建模和模擬的能力空間。
可靈整體框架採用了類 Sora 的 DiT 結構,用 Transformer 代替了傳統擴散模型中基於卷積網路的 U-Net。具體來說,可靈 2.0 在基礎模型上的架構升級包括:
  • 全新設計的 DiT 架構,提升視覺 / 文字模態資訊融合能力。
  • 全新設計的 VAE,使複雜動態場景下過渡更順暢、質感更自然。
  • 首次系統性研究了影片生成 DIT 架構的 Scaling Law 特性。
為解鎖更強的指令響應和運動表現,可靈 2.0 採用了以下訓練和推理策略:
  • 強化對於複雜運動、主體互動的生成能力提升影片表現張力。
  • 強化對運鏡語言、構圖術語等專業表達的理解和響應能力。
  • 人類偏好對齊技術,讓模型更懂”常識”和“審美”。
據張迪透露,在可靈 AI 平臺上,85% 的影片創作是透過圖生影片完成的,這一方面說明了圖生影片可以更好地表達使用者的創作意圖,另一方面也彰顯了圖片賦予整個視覺創作流的重要性。
此次升級的可圖 2.0 模型,在指令遵循、電影質感及藝術風格表現等方面作了顯著提升。 在風格化響應上,可圖 2.0 支援 60 多種風格化的效果轉繪,包括受大家喜愛的 GPT 風格、二次元風格、插畫風格、數字世界、3D 等,模型出圖創意和想象力實現因此大幅躍升。
而在可圖 2.0 背後,同樣暗含許多技術創新。張迪介紹稱,快手團隊在預訓練階段,透過精準建模預訓練文字到視覺表徵的對映,使得文字和影像的對齊做得更好;在後訓練階段,該模型更多地使用了強化學習技術來提升美感、對齊人類審美,並大量探索了後訓練階段的 Scaling Law;在推理階段,大量使用了全新的提示詞工程和推理策略,提升了出圖的穩定性和創造性。
影片和影像都能放進 prompt 了
“文字作為人去描述自己想象中的世界的媒介是不完備的,需要定義一個人和 AI 互動的新的語言,讓人的想象能夠被 AI 完全感知到。”蓋坤說道。
在一些場景裡,文字很難準確描述出影片內容,比如複雜的武打畫面,即使用很大篇幅的文字也難以準確描述。
為此,快手還在可靈 2.0 大師版上線了全新的多模態編輯功能,能靈活理解使用者意圖,支援對影片和影像內容實現增、刪、改元素。
具體可以看到,多模態編輯器中,可以將多模態的表達放進提示詞中,以實現更準備的修改。
此外,影像多模態編輯具有風格重繪的能力,能夠對圖片可進行不同風格的重繪,且保持原圖片的語義。
在本次 2.0 模型迭代中,可靈 AI 正式提出了 AI 影片生成的全新互動理念 Multi-modal Visual Language(MVL),即將語義骨架(TXT)和多模態描述子(MMW)結合,讓使用者能夠結合影像參考、影片片段等多模態資訊,將腦海中的多維度複雜創意,直接高效地傳達給 AI。此次釋出的多模態影片編輯功能,正是基於 MVL 的思想所研發。
張迪介紹稱,多模態編輯功能背後是一整套多模態控制技術,快手目前在這方面迎來了很大的突破,包括以下三個方面:
  • 把文字模態、影像模態和視覺模態進行了統一表徵,並使用超長的上下文進行訓練;
  • 透過高效的 Token 壓縮與快取演算法,可以支援長序列的訓練和推理;
  • 在推理環節,使用了帶有 CoT 的多模態推理能力技術來理解使用者輸入的多模態資訊。
結   語
截至目前,可靈 AI 全球使用者規模突破 2200 萬,過去的 10 個月裡,其月活使用者量增長 25 倍,累計生成超過 1.68 億個影片及 3.44 億張圖片。
張迪表示,在釋出之初,快手便深知影片生成技術賽道是一個長跑,為此可靈 AI 自發布後就進入了奪命狂奔模式,過去 10 個月時間裡已經歷了 20 多次的產品迭代,釋出了 9 個有里程碑意義的產品。可靈 1.0 於去年 6 月釋出,是全球首個使用者真實可用的 DIT 架構的影片政策大模型。
對於這一次的更新,可靈 AI 團隊給出了這樣的評價:“我們可以當之無愧的說,可靈 2.0 文生影片模型是一個全球大幅領先的影片模型。”
宣告:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。
活動推薦
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!

相關文章