被馬斯克追更的可靈AI上線2.0模型，一句話就能拍電影的時代來了？

作者｜summer郵箱｜[email protected]

4月15日，可靈AI一口氣完成了全系模型的更新，可靈2.0影片生成模型及可圖2.0影像生成模型正式面向全球釋出，還同步推出了影片多模態編輯、影像區域性重繪以及影像風格轉繪三項新功能。

這也把網友們炸開了鍋。

和可靈的一貫作風一樣，此次模型釋出即可使用。在X上，已經有大量網友開始展示使用效果了。

有人驚歎於多種風格影片的自然生成，也有人透過多模態編輯為影片更換了主角，憑藉自然的效果引起了廣泛的討論。

“it's over，Kling AI 現在可以從任何電影場景中換掉演員。快速射擊，複雜的動作，都不在話下了。”有網友說道。

就連馬斯克本人也在X上關注了可靈AI官方賬號。此前，馬斯克曾評論了一則由可靈AI製作的內容,稱“AI娛樂產業正飛速發展”。

不止來自使用者和社交平臺的反饋，資料層面上，在團隊內部的多項勝負率評測中，模型也表現出了超高的領先優勢。

可靈2.0影片模型，對比谷歌Veo2的勝負比高達205%，而與OpenAI備受矚目的Sora相比，更是達到驚人的367%的勝負比；在影像生成領域，可圖2.0與Midjourney V7等業界公認的領先模型相比，勝負比最高超過300%。

那麼，此次代際更新體現在哪裡，效果到底如何？我們直接上圖看看具體效果。

一連串大招，可靈全系模型邁進2.0時代

我們先看看此次更新的2個模型、3項功能分別如何。

首先是可靈2.0模型（大師版），文生影片和圖生影片模型，支援首尾幀和新功能多模態編輯。單次可生成時長為5秒或10秒的影片。

以下面這則生成影片為例，一匹在草原狂奔的駿馬，疾風吹過鬃毛，四腿的運動線條流暢，實感很強，即使是大幅度運動，畫面也絲毫沒混亂。

幾乎做到了媲美真實場景的程度。相比於之前版本，可靈 2.0 的影片模型展示出了更強的語義響應、更優的動態質量和更好的畫面美學。

其次，可圖2.0模型在影像生成領域也有了質的飛躍，不僅提升了語義遵循能力，畫面更具電影質感，還能響應近百種風格。據可靈AI披露，85%的使用者都是採用的圖生影片功能，圖片生成的重要性不言而喻。

prompt ：電影靜幀，鏡頭正面跟隨一位身穿紅色連衣裙的女子在雨中奔跑，她的頭髮被風吹亂，臉上混合著雨水和淚水，背景是模糊的霓虹燈光，街道溼滑反光

基礎模型決定了生成效果的技術上限，可靈AI還同步推出了三項創新功能，從產品層面讓影片生成更好用了。

其中，「多模態編輯」功能，允許使用者透過輸入圖片或文字，對一段5秒的影片進行靈活的修改和再創作，可以針對使用者上傳的影片，替換、新增、刪除元素，由此提高影片創作的可控性和迭代效率。

而可圖2.0的「圖片編輯」功能，則是支援對任意圖片進行指定區域的區域性重繪以及更自由的多尺寸擴圖，效果自然，與原圖高度融合。

「風格轉繪」功能則讓使用者只需上傳圖片並輸入風格描述，即可一鍵轉變影像風格，輕鬆獲得爆款效果。

從模型基礎能力到功能應用層面全面突破，這意味著使用者在創作全流程中的體驗和最終效果都得到了提升。對創作者們而言，這是一套更加完整、強大且易用的創作工具，正在使AI創作變得更加自然、高效且富有表現力。

更穩、更美、更可控，使用者能用一句話當導演？

作為全球首個使用者可用的DiT影片生成模型，可靈2.0的更新受到廣泛關注。

當前，影片生成模型們普遍面臨著“動作幅度”與“穩定性和連貫性”難以兼顧的問題，且控制不足、創作依賴“盲盒抽卡”，畫面美感難達專業水準。這些行業痛點，在可靈2.0中都得到了一定程度的最佳化。

首先，在基座模型能力上，可靈2.0在語義響應、動態質量和畫面質感三大核心維度發生了突破。

AI創作的第一步就是理解使用者創作意圖，在語義響應能力方面，新版本展現出了更強的理解精度和執行力。

對比1.6與2.0版本在相同複雜提示詞下的生成結果，2.0版本在動作響應上能夠精準捕捉複雜肢體動作和麵部微表情，每個細節都得到完美呈現，無論是捏拳的微小變化還是眼神的細微轉變都能準確表達；

可靈2.0VS可靈1.6（Prompt：男人先是開心地笑著，突然變得憤怒，手錘桌子起身。）

在運鏡響應上，2.0版本成功實現了環繞運鏡、跟隨運鏡等專業電影效果，大幅提升了視覺表現力，實現了專業級攝影效果。

在時序響應上，新模型保持了鏡頭內人物動作、表情和背景環境的高度連貫性和邏輯性，解決了之前版本中常見的時空跳躍問題。

動態質量方面，可靈2.0同樣展現出顯著優勢。對比兩個版本的生成結果，2.0版本在複雜動作完成度上有了質的突破，如跑酷等高難度動作展現出流暢自然的效果，物理合理性大幅提升；

運動幅度的最佳化讓恐龍追逐等高動態場景展現出更合理且具張力的運動範圍，大大增強了畫面的沉浸感；

運動速度的調整則有效解決了慢動作問題，影片展現出更符合物理規律的真實速度感，讓動態表現更加自然。

在畫面美學層面，可靈2.0全方位提升了視覺表現力。對比此前的模型，新版本的視覺表現更具專業質感，呈現出電影級的畫面品質，色彩和光影效果更為高階，整體美感顯著提升；

細節刻畫更加豐富，場景和人物細節更加精緻，視覺資訊更加豐富；

風格保持能力也大幅增強，從原始影像到生成影片，風格一致性更高，讓創作者能夠更精準地控制視覺風格。

在這些基礎模型效果的突破上，可靈也搭配了功能層面的「多模態編輯」功能，重新定義了人與AI互動的方式。

正如快手高階副總裁蓋坤所指出的：“文字作為表達媒介存在侷限，無法完美描述人腦中的複雜影像。即使最精確的文字描述也難以完美傳達腦海中的視覺想象。”

為解決這一問題，此次可靈2.0提出了名為Multi-modal Visual Language（MVL）的多模態視覺語言，核心理念是透過多模態資訊的組合，來精準表達人腦中的想象，打破純文字表達的侷限。

在MVL體系中，存在兩類關鍵元素：一是TXT（Pure Text，語義骨架）；二是MMW（Multi-modal-document as a Word，多模態描述子），將多模態資訊如影像、影片片段等作為“單詞”嵌入到語義骨架中，共同構建完整的創作指令。

例如，使用者可以指定一個人物影像作為主角外貌參考，另一張影像作為服裝參考，第三張影像作為場景參考，再透過文字描述動作和情緒，最終生成一段完全符合預期的影片。

這種結合了自然語言描述與多模態參考的表達方式，大幅提升了創作指令的精準度，讓AI更能理解創作者心中真正的想象。

多模態編輯功能可以說是此前多圖參考的迭代，進一步對齊了文字語言、圖片語言和影片語言，讓不同型別的創作素材能夠和諧共存於同一創作指令中。據快手透露，未來MVL還將擴充套件至聲音、動作描述檔案等更多模態。

更強的基礎模型能力+更靈活可控的產品功能，對創作者們而言，可靈2.0讓影片生成變得更加真實可用了。

剛剛拿下“全球第一”的可靈，如何保持領先？

去年可靈AI1.0釋出上線，吹響了整個影片生成賽道的起跑哨，此後始終保持著綜合效果的領先狀態。

從客觀資料來看，3月27日，全球知名AI基準測試機構Artificial Analysis釋出的最新全球影片生成大模型榜單中，快手可靈1.6pro（高品質模式）以1000分的Arena ELO基準測試評分登頂圖生影片（Image to Video）賽道榜首，將Google Veo 2、Pika Art等知名產品分別擠至第二、三名的位置。

除了專業榜單的認可，可靈在使用者規模上同樣表現亮眼。自去年6月正式釋出以來，可靈AI已累計完成超過20次迭代，目前全球使用者規模已突破2200萬，增速迅猛。

這些成績的背後，是可靈團隊對產品持續迭代更新的堅持，不到一年時間經歷了20多次迭代，以及對使用者真實需求的深入洞察。

這種需求的洞察，首先體現在影片生成不是技術自嗨，而是圍繞著使用者的創作需求，能夠儘可能地被用起來，因此，可靈從1.0開始就保持著模型釋出，使用者即可用。

無論是，可靈1.0上線後迅速掀起了一陣老照片修復潮，“老照片動起來”的創意作品風靡各大社交平臺，還是此次2.0透過更強大的生成能力和更實用的互動方式，進一步降低了創作門檻，釋出即可用，也意味著從生成技術到生成產品，可靈的每一步進化都能夠建立在使用者實際反饋的基礎上。

此外，為了讓可靈AI能夠被更廣泛的創作者應用，快手還構建了完整的生態支撐體系。

一方面，可靈AI面向開發者和企業提供API接入等服務，目前，已與包括小米、亞馬遜雲科技、阿里雲、Freepik、藍色游標等在內的數千家國內外企業展開合作關係。資料顯示，來自世界各地的超過1.5萬開發者已將可靈的API應用於不同的行業場景中，累計生成的影像數量約1200萬個，生成的影片素材超過4000萬個。

另一方面，在廣大C端使用者層面，可靈AI也構建起了AIGC創作-消費生態。從《山海奇鏡之劈波斬浪》到《新世界載入中》等備受關注的AI劇作，都展示了AI在內容創作領域的無限可能。

可靈AI超級創作者、《新世界載入中》總導演、異類Outliers創始人陳翔宇提到，“我們實踐之後發現，可靈AI是一個能夠穩定、大規模嵌入劇集創作流程的生成式協作大模型。”陳翔宇認為，在AI的輔助下，導演及編劇團隊的大量內容創意也實現了更富有想象力的表達，AIGC相較於實拍和動畫，不僅是效率的提升，更是試錯空間的革命性釋放。

在此次產品更新的同時，快手也推出了“可靈AI NextGen 新影像創投計劃”，進一步加大對AIGC創作者的扶持力度，透過千萬資金投入、全球宣發、IP打造和保障，以全資出品、聯合出品和技術支援等靈活多樣的合作方式，讓AI好故事走向世界。

持續的技術創新、實用的產品迭代和豐富的生態建設，對影片生成發展而言，缺一不可，這也是快手保持優勢的原因所在。

正如快手高階副總裁、社群科學線負責人蓋坤所言：“我們的初心，是讓每個人都能用AI講出好的故事。”藉助AI的力量，讓更多人能夠輕鬆表達自己的創意，講述屬於自己的故事的那一天，也許並不遙遠。