我用可靈AI2.0復活《清明上河圖》,這就是下一代創作工具

可靈 AI
2.0 釋出
在 Sora 之前,就已經受到全世界使用者的認可的生成式影片工具是什麼?——可靈 AI。
無需折騰剪輯軟體,幾分鐘,就能拿到自然如實拍,畫面質感如電影的動態影片。

可靈穩坐國產 AI 影片的頭把交椅許久,從去年 6 月 6 日首次上線開放測試以來,產品快速經歷了二十多個版本的迭代。可靈 1.6 模型的圖生影片內部評測,比 1.5 模型整體效果提升近 200%,還讓毛絨玩具的特效迅速出圈。
現在,可靈終於又迎來了一次重大更新:可靈 2.0 影片生成,以及可圖 2.0 文生圖模型。
從人物跑動、火焰燃燒的真實物理軌跡,到機械蝴蝶穿梭未來都市的奇幻場景,AI 不僅能精準模擬現實世界的運動規律,更能將抽象文字轉化為驚豔的動態畫面。
APPSO 第一時間來到釋出會現場,本次的更新亮點包括
1.
可靈、可圖模型層面更新, 快手結合多項自研技術創新,畫面美學、語義響應和動態質量大幅度提升。2.0 全面升級了訓練和推理策略,尤其是強化了對於複雜運動主體互動濾鏡、構圖術語等專業的表達和理解響應。
2.
精準微調功能。可靈新增新增「多模態編輯」功能,支援在一段 5s 的影片的基礎上,輸入圖片/文字,對影片進行靈活、精準的修改和再創作。可圖新增「圖片編輯」及「風格轉繪」功能。
3.
AI 音效生成,根據影像內容結合文字prompt,生成適配的音效片段
另外,我們還提前體驗了內測,除了震撼於新模型的強大之外,也發現了一些使用小技巧,幫助你體驗這款強大的生成+編輯工具。
不止是多模態功能,更是一種語言
僅僅使用文字作為和 AI 溝通的語言,顯然不足夠,只能有限描述腦海中的想法。配合圖片,準確程度提高一層。再結合動態影像,又更上一層樓。
這些,共同形成了 MVL:Multi-modal Visual Language,一種全新的互動「語言」。MVL = TXT 語義骨架+MMW 多模態描述子,即透過文字+動作描述檔案,生成精細的影片成片。
這套語言形成了 可靈 2.0 中新增的「多模態編輯」功能。包括三種模式:替換、增加和刪除。
在可靈的創意社群,我們發現了一個來自可靈使用者製作的影片,堪稱現實主義創作。
不過嘛,既然是現實主義題材,還可以再寫實一點:應該讓川普和馬斯克,去工廠裡裝手機。
這就是「多模態編輯」大展身手的時刻了,我們先來把縫紉機刪掉。透過下方的文字輸入框,@ 具體的圖片和部分,進一步明確需要改動的內容。
at 的設計很符合使用者直覺,尤其是多個素材的情況下,能更方便地用文字指出要改動的物件
注意!點選編輯,會彈出筆刷編輯介面。在這裡,可以透過用塗抹的方式,選擇要替換的具體區域——一定要時間線上選幾個點,才能保證覆蓋到整個影片。
可以看到,在塗抹和文字 prompt 的雙重保險下,單個元素能被刪的乾乾淨淨。
替換模式就有更多可玩的了,除了修改原影片,還可以結合圖片。
不是要讓這倆人去裝手機嗎?把手機流水線的圖片匯入,進入選擇主題介面,框出具體的部分。
大功告成!
在可靈 2.0 版本中,「多模態」不僅是一個新功能,更加是一種全新的互動語,更充分地開發和呼叫模型的能力,作用於實際的創作工作流。
從生成到編輯,全鏈路的創作工作流
如果說「多模態編輯」滿足的是影像從業者,在精細調優方面的要求,那可圖 2.0 以及可靈的圖生影片模式,就是造福所有人民群眾的。
圖生影片佔到使用比例的 85%,是更為可用的手段。再搭配影片模態微調,就能實現一次跑完所有流程
比如,先拿膠布人形象圖,生成當下最流行的 3D 玩偶版本。
然後直接生成影片——沒錯,手指和動作,只是一句話即可生成。
文字 prompt 隨意更改,鏡頭視角調整後,又是一支新片。
擷取《清明上河圖》的一段畫面,交給可靈 2.0 即可,汴河水波盪漾,船隻隨流水輕搖,岸邊行人熙熙攘攘。近千年前的社會風貌「煥發生機」。
燈火通明,絲竹亂耳,賓客們酒杯叮噹,《韓熙載夜宴圖》的主人公半醉半醒的場景也在可靈 AI 2.0 的幫助下得到了很好的還原。動態質量和運動幅度,都和素材的題材相當符合
OpenAI 創始團隊已然分崩離析,但聚是一團火,散是滿天星,下面這張經典的合照倒也很符合 OpenAI 當下的處境。
Sam Altman 與馬斯克的恩怨糾葛早已是科技圈的談資,兩人沒少針鋒相對,我們也用 AI「重現」了他倆幹架的名場面。
動作的流暢性,可以看出可靈 2.0 在時序響應上的能力,動作符合邏輯、連貫自然。
下一代創作工具,已經到來
顯然,可靈對 2.0 版本,不僅是為了展示技術上的進步,也是理念的再闡述:全新的功能,全新的語言,全新的能力。
在全新設計了 DiT 架構之後,視覺模態和文字模態的融合更加對齊。同時,這次的更新背後是對後訓練的大量探索。
除了在預訓練階段,透過精準的建模與訓練和視視覺標註的對映,使得文字和影像的對齊做的更好。還有在後訓練階段,透過強化學習提高多模態推理能力
不過,更重要的是,可靈所秉承的「讓靈感成真」,使得使用體驗成為整個產品的中心。
從釋出到現在,有超過 2200 萬的使用者使用、肯定可靈 AI,在平臺上總共創作了 1.68 億個影片和 3.4 億張圖片。上萬名開發者在使用可靈 AI 的 API,應用在自己的行業場景中。而這些開發者已經累計生成了 1200 萬張影像,4000 萬個影片。
模型能力並不是炫技的武器,也不是秀肌肉的手段,而是需要實在地進入使用者的工作流當中,讓每個創作者,無論經驗如何,都能以簡單地方式、便捷的工具,講好自己心中的故事。
我們正在招募夥伴
📮 簡歷投遞郵箱[email protected]
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)
更多崗位資訊請點選這裡🔗

相關文章