新突破,3個火爆的AI專案,已開源!

Hello,大家好,我是 Jack,新的一週,AI 圈又是好訊息連連。
就在昨天,兩個重量級 AI 影片生成工具:Magi-1 和 SkyReels-V2 相繼釋出。
不得不說,AI 影片生成的賽道,真的捲到飛起。
與此同時,在音訊領域,Nari Labs 今天剛推出了開源 TTS(文字轉語音)模型 Dia-1.6B,能夠生成帶咳嗽聲、笑聲、嗅聲和豐富情緒表達的高質量音訊。
接下來,就讓我們一起快速瞭解一下這三個最新的開源 AI 工具。

一、AI影片工具:Magi-1

Magi-1是首個具備高質量輸出的自迴歸擴散影片模型,在主要基準測試中表現出色,目前已正式上線
Sand ai官網:
https://sand.ai/

我們先一起來看看Magi-1生成的影片的效果。
AI影片生成平臺層出不窮,Magi-1的特別之處在哪?
  • 無限擴充套件能力:支援跨時間無縫講故事。
  • 提供精確的時間控制:時間精度達到 1秒級,具備唯一的二級時間線控制功能,每一幀都可以被精準操控,有效解決了影片生成中的“慢動作”和“有限動態”問題。
  • 物理定律理解透徹:在 Physics-IQ 基準測試中排名第一。

更令人驚喜的是,Magi-1模型100% 開源,你可以在這裡找到它的程式碼、預訓練的權重和推理程式碼:
https://github.com/SandAI-org/MAGI-1

二、AI影片工具:SkyReels-V2

之前的AI影片工具(如Runway)常將生成影片長度限制在 10 秒內,這對使用者想要創作出完整的故事非常不方便。
而現在 SkyReels-V2 支援使用者直接從瀏覽器可以透過單個提示建立無限長度的影片。
專案開源地址:
https://github.com/SkyworkAI/SkyReels-V2
目前它也在 VBench 上擁有最高的開源分數(83.9%),優於Wan2.1、HunyuanVideo和OpenSora 2.0。

影片示例

它可以完成從指令碼和故事板到語音、口型同步、音樂和完整電影影片的所有工作,強大得離譜。
例如,下面這個例子展示了使用 SkyReels-V2 將書面故事轉換為電影故事板和場景,並且調整服裝、聲音和視覺效果以實現想要的效果。
如果 prompt 沒有實現想要的視覺風格,你也可以透過上傳具有一致外觀、動作、燈光或動畫的視覺物件來實現你個人定製的風格。
SkyReels-V2 的核心優勢來自其“強制擴散架構”,確保在延長影片長度時依然保持一致性和高質量。
看到 Magi-1 和 SkyReels-V2 的出現,電影導演夢真的越來越近了。網友評論:“期待5年內出現一部全 AI 製作的長片大片。”

三、AI 聲音克隆:Dia-1.6B

Nari Labs 釋出的 TTS 模型 Dia-1.6B,雖然引數量不大,但功能卻異常強大。
這個模型最厲害的地方是增加了一些自然人聲的生成,比如笑聲、咳嗽、清喉嚨聲音等,能夠複製現有語音,表達人物的情感,還能在大規模 GPU 上即時執行。
該模型也將在本週登陸 MLX Audio。
我們先一起來看看它的效果。
專案開源地址:
GitHub:
https://github.com/nari-labs/dia
Hugging Face:
https://huggingface.co/nari-labs/Dia-1.6B
更多的一些demo展示:
https://yummy-fir-7a4.notion.site/dia
好了,本期文章的內容就這麼多,我們下期再見~

·················END·················


相關文章