大家好,今天繼續聊聊科技圈發生的那些事。
一、DBRX
全球最強?開源 AI 大語言模型寶座的頭把交椅易主?把 GPT 都整趴下了?
是的,你沒有看錯!Databricks 公佈旗下 Mosaic Research 團隊開發,號稱最強開源 AI 大模型的 DBRX 已開源。
我們先來看看專案主頁的簡介:
Helping data teams solve the world's toughest problems using data and AI
翻譯過來就是,幫助資料團隊使用資料和人工智慧解決世界上最棘手的問題。
真行麼??
一個不可否認的事實:在效能方面,DBRX 公佈的官方資料是戰勝了現在的所有開源模型,包括 GPT-3.5、Llama-2 以及前不久剛開源的 Grok-1。
先來看看這些資料:
-
DBRX 用了約 1320 億的引數,大約是 Grok-1 的1/3。 -
模型一次性啟用 360 億個引數(這幾乎是模型引數總數的1/4!),大約是 Llama-2 的一半,也就是說速度是翻倍的。 -
部署執行需要的視訊記憶體大約是 264G ,大約是 Grok-1 的一半,對硬體需求大大降低了。
再看這張圖:

簡單來說就是 DBRX 在語言理解、程式設計和數學方面的表現都已經超越了已有的開源模型。
啥概念?用的引數比你們少,硬體需求比你們低,但是我速度更快,效能還更好!
更多的資料比較可以在 Databricks 釋出的 Introducing 中看到。
連結:
https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
一切的一切都在說明,除了那些未開源的 LLM 模型(這裡不點名 OpenAI和谷歌),DBRX 似乎真的遙遙領先了。至於它會在行業內掀起怎樣的風浪,且讓我們拭目以待吧。
最後,對這個專案的介紹,用一句 Hugging Face 工程師對 DBRX 的評論結束:
太狂野了!!!
專案地址:
https://github.com/databricks/dbrx
二、AniPortrait
騰訊遊戲團隊開發的由音訊驅動的人像動畫合成工具。
透過這個有趣的專案,你能看到:
-
唱著《Rap God》的蔡徐坤

-
阻止你說髒話的李雲龍

-
親切的張亮

讓我們一起看看專案的框架:

首先,提取音訊中的頭部姿勢和麵部資訊,進行投影,生成目標姿勢影像。然後透過擴散模型生成完整的影片。
專案包括了三種可採取的生成方法:
-
面部重塑(Face reenacment) -
自我驅動(Self driven) -
音訊驅動(Audio driven)
這也是一個可以本地部署體驗的專案,有一定的硬體要求。而環境的搭建,權重資訊,訓練方法,作者團隊都在主頁給出了詳細的說明。
順提一句,這玩意對標的應該是阿里家的 EMO,也可以期待一手=下兩個專案接下來的發展。
專案地址:
https://github.com/Zejun-Yang/AniPortrait
三、FRESCO
基於 Stable Diffusion 的零成本影片轉繪工具。SD 也算是我們的老朋友了。
我們給出一個簡單的影片。FRESCO 可以幫我們把它轉繪成不同風格下的影片,就像是給影片打上了不同的濾鏡。
比如,蒙娜麗莎式的。

類似這樣的 gif 圖和完整的影片,在專案主頁上還展示了很多。

FRESCO 有幾個鮮明特點:
-
使用幀內和幀間約束,比單獨使用光流具有更好的一致性和覆蓋率。 -
無需對模型進行訓練,無需進行微調。 -
相容現有的模型,可以靈活使用,實現更好的效果。
我們可以看看 FRESCO 的 GUI 介面,還是很簡潔的。給出要求的主題提示詞句,FRESCO 就能生成新的轉繪影片。

另外, FRESCO 提供了很豐富的高階選項,包含很多可調的引數,可以對影片轉繪進行更精細的調控。

目前專案存在的缺點是,視訊記憶體佔用過高,即使你的硬體配置已經很不錯了,但仍無法很好的生成高解析度的影片。另外,FRESCO 只能使用 Diffusion 格式的模型。
專案地址:
https://github.com/williamyang1991/fresco
四、VoiceCraft
零樣本語音編輯和文字到語音的訓練。也就是一個克隆或編輯聲音的模型。
VoiceCraft 是一種令牌填充神經編解碼器語言模型,它在語音編輯和對有聲讀物、網際網路影片和播客等線上資料的零樣本文字到語音(TTS)方面都實現了最先進的效能。
而這個模型最突出的點就是,快!要克隆或編輯一個新的聲音, VoiceCraft 只需要幾秒鐘的時間即可完成。
我們來試聽一段 VoiceCraft 生成的音訊示例:
But when I had approached so near to them The common object, which the sense deceives, Lost not by distance any of its marks.
作者團隊已經將一整個模型開源,而模型的訓練需要使用者自己完成。不過作者團隊給出了完整的訓練方法。

截止目前,專案仍然在不斷更新,專案主頁的 TODO 專案仍不斷減少。作者團隊稱,專案將會在 24 年 3 月底解決所有亟待完善的問題。
專案地址:
https://github.com/jasonppy/VoiceCraft
感興趣的小夥伴可以持續關注專案更新。
好了,今天的內容就是這麼多,我們下期見!
關鍵詞
模型
資料
引數
Grok-1
影片