我用可靈AI2.0復活《清明上河圖》，這就是下一代創作工具

2025-09-17 10:07 愛範兒

可靈 AI

2.0 釋出

在 Sora 之前，就已經受到全世界使用者的認可的生成式影片工具是什麼？——可靈 AI。

無需折騰剪輯軟體，幾分鐘，就能拿到自然如實拍，畫面質感如電影的動態影片。

‍

‍

可靈穩坐國產 AI 影片的頭把交椅許久，從去年 6 月 6 日首次上線開放測試以來，產品快速經歷了二十多個版本的迭代。可靈 1.6 模型的圖生影片內部評測，比 1.5 模型整體效果提升近 200%，還讓毛絨玩具的特效迅速出圈。

現在，可靈終於又迎來了一次重大更新：可靈 2.0 影片生成，以及可圖 2.0 文生圖模型。

從人物跑動、火焰燃燒的真實物理軌跡，到機械蝴蝶穿梭未來都市的奇幻場景，AI 不僅能精準模擬現實世界的運動規律，更能將抽象文字轉化為驚豔的動態畫面。

APPSO 第一時間來到釋出會現場，本次的更新亮點包括：

1.

可靈、可圖模型層面更新，快手結合多項自研技術創新，畫面美學、語義響應和動態質量大幅度提升。2.0 全面升級了訓練和推理策略，尤其是強化了對於複雜運動主體互動濾鏡、構圖術語等專業的表達和理解響應。

2.

精準微調功能。可靈新增新增「多模態編輯」功能，支援在一段 5s 的影片的基礎上，輸入圖片/文字，對影片進行靈活、精準的修改和再創作。可圖新增「圖片編輯」及「風格轉繪」功能。

3.

AI 音效生成，根據影像內容結合文字prompt，生成適配的音效片段

另外，我們還提前體驗了內測，除了震撼於新模型的強大之外，也發現了一些使用小技巧，幫助你體驗這款強大的生成+編輯工具。

不止是多模態功能，更是一種語言

僅僅使用文字作為和 AI 溝通的語言，顯然不足夠，只能有限描述腦海中的想法。配合圖片，準確程度提高一層。再結合動態影像，又更上一層樓。

這些，共同形成了 MVL：Multi-modal Visual Language，一種全新的互動「語言」。MVL = TXT 語義骨架+MMW 多模態描述子，即透過文字+動作描述檔案，生成精細的影片成片。

這套語言形成了可靈 2.0 中新增的「多模態編輯」功能。包括三種模式：替換、增加和刪除。

在可靈的創意社群，我們發現了一個來自可靈使用者製作的影片，堪稱現實主義創作。

不過嘛，既然是現實主義題材，還可以再寫實一點：應該讓川普和馬斯克，去工廠裡裝手機。

這就是「多模態編輯」大展身手的時刻了，我們先來把縫紉機刪掉。透過下方的文字輸入框，@ 具體的圖片和部分，進一步明確需要改動的內容。

at 的設計很符合使用者直覺，尤其是多個素材的情況下，能更方便地用文字指出要改動的物件。

注意！點選編輯，會彈出筆刷編輯介面。在這裡，可以透過用塗抹的方式，選擇要替換的具體區域——一定要時間線上選幾個點，才能保證覆蓋到整個影片。

可以看到，在塗抹和文字 prompt 的雙重保險下，單個元素能被刪的乾乾淨淨。

替換模式就有更多可玩的了，除了修改原影片，還可以結合圖片。

不是要讓這倆人去裝手機嗎？把手機流水線的圖片匯入，進入選擇主題介面，框出具體的部分。

大功告成！

在可靈 2.0 版本中，「多模態」不僅是一個新功能，更加是一種全新的互動語言，更充分地開發和呼叫模型的能力，作用於實際的創作工作流。

從生成到編輯，全鏈路的創作工作流

如果說「多模態編輯」滿足的是影像從業者，在精細調優方面的要求，那可圖 2.0 以及可靈的圖生影片模式，就是造福所有人民群眾的。

圖生影片佔到使用比例的 85%，是更為可用的手段。再搭配影片模態微調，就能實現一次跑完所有流程。

比如，先拿膠布人形象圖，生成當下最流行的 3D 玩偶版本。

然後直接生成影片——沒錯，手指和動作，只是一句話即可生成。

文字 prompt 隨意更改，鏡頭視角調整後，又是一支新片。

擷取《清明上河圖》的一段畫面，交給可靈 2.0 即可，汴河水波盪漾，船隻隨流水輕搖，岸邊行人熙熙攘攘。近千年前的社會風貌「煥發生機」。

燈火通明，絲竹亂耳，賓客們酒杯叮噹，《韓熙載夜宴圖》的主人公半醉半醒的場景也在可靈 AI 2.0 的幫助下得到了很好的還原。動態質量和運動幅度，都和素材的題材相當符合。

OpenAI 創始團隊已然分崩離析，但聚是一團火，散是滿天星，下面這張經典的合照倒也很符合 OpenAI 當下的處境。

Sam Altman 與馬斯克的恩怨糾葛早已是科技圈的談資，兩人沒少針鋒相對，我們也用 AI「重現」了他倆幹架的名場面。

動作的流暢性，可以看出可靈 2.0 在時序響應上的能力，動作符合邏輯、連貫自然。

下一代創作工具，已經到來

顯然，可靈對 2.0 版本，不僅是為了展示技術上的進步，也是理念的再闡述：全新的功能，全新的語言，全新的能力。

在全新設計了 DiT 架構之後，視覺模態和文字模態的融合更加對齊。同時，這次的更新背後是對後訓練的大量探索。

除了在預訓練階段，透過精準的建模與訓練和視視覺標註的對映，使得文字和影像的對齊做的更好。還有在後訓練階段，透過強化學習提高多模態推理能力

不過，更重要的是，可靈所秉承的「讓靈感成真」，使得使用體驗成為整個產品的中心。

從釋出到現在，有超過 2200 萬的使用者使用、肯定可靈 AI，在平臺上總共創作了 1.68 億個影片和 3.4 億張圖片。上萬名開發者在使用可靈 AI 的 API，應用在自己的行業場景中。而這些開發者已經累計生成了 1200 萬張影像，4000 萬個影片。

模型能力並不是炫技的武器，也不是秀肌肉的手段，而是需要實在地進入使用者的工作流當中，讓每個創作者，無論經驗如何，都能以簡單地方式、便捷的工具，講好自己心中的故事。

我們正在招募夥伴

📮 簡歷投遞郵箱[email protected]

✉️ 郵件標題「姓名+崗位名稱」（請隨簡歷附上專案/作品或相關連結）

更多崗位資訊請點選這裡🔗

相關文章

可靈AI開啟影片生成2.0時代！全球使用者數已突破2200萬

可靈AI開啟影片生成2.0時代！全球使用者數已突破2200萬

可靈2.0成“最強視覺生成模型”？自稱遙遙領先OpenAI、谷歌，技術創新細節大揭秘！

可靈2.0成“最強視覺生成模型”？自稱遙遙領先OpenAI、谷歌，技術創新細節大揭秘！

左腦DeepSeek，右腦可靈，或許是國產AI的“完全形態”

左腦DeepSeek，右腦可靈，或許是國產AI的“完全形態”

快手的可靈又更新了，這次搓出來的影片真有點東西…

快手的可靈又更新了，這次搓出來的影片真有點東西…

AI落地在快手正在加速——快手二季報讀後感

AI落地在快手正在加速——快手二季報讀後感

「快手，你是誰？從哪來？到哪去？」|在AI創造1億營收後，快手的前路和野望

「快手，你是誰？從哪來？到哪去？」|在AI創造1億營收後，快手的前路和野望

稚暉君和機器人，離不開腳踏車

稚暉君和機器人，離不開腳踏車

稚暉君的機器人又進化了，會騎腳踏車還跳得了科目三…

稚暉君的機器人又進化了，會騎腳踏車還跳得了科目三…

聊一款“全新設計”的旗艦遊戲本

聊一款“全新設計”的旗艦遊戲本

被判賠1250萬！非法抓取高德地圖資料…

被判賠1250萬！非法抓取高德地圖資料…

Copyright © 2025 | WordPress Theme by MH Themes