又火兩個驚豔的AI專案,已開源!

大家好,今天繼續聊聊科技圈發生的那些事。

一、Cradle

Cradle,一款全新的框架,使大模型可以透過人類平時瀏覽的操作介面,執行復雜的計算機任務。
還記不記得,前些日子微軟展示的,基於GPT-4o,讓Copilot即時為你提供遊戲操作建議?例如當你進行到遊戲的某個步驟的時候,Copilot會建議你該做什麼,並且給你提供相應的教程。
而 Cradle 以螢幕截圖作為輸入,以鍵盤和滑鼠操作作為輸出。這意味著什麼?Cradle甚至能代替人工操作者,直接根據即時的截圖,像人一樣進行滑鼠和鍵盤的操作!
Cradle 的框架實現大致分為以下幾個步驟:
  • 資訊收集:Cradle 從影片片段中提取所有有用的視覺和文字資訊(包括佈局、影像、動畫和UI元素等),以便理解當前情況並進行進一步推理。同時,透過OCR技術提取影像中的文字資訊,包括內容(標題和段落)、導航標籤(選單和連結)、通知和指示等。
  • 技能和動作生成:Cradle 利用LMM生成程式碼函式作為語義級別的技能,這些技能封裝了較低級別的鍵盤和滑鼠控制,將LMM生成的語義動作與作業系統級別的可執行動作連線起來。類似於人類在遊戲中的逐步提高,這些技能可以根據遊戲教程、指南、遊戲手冊和設定獲得,也可以是自我成長。這些技能也可以預定義或組合以解決更復雜的任務。
  • 動作執行:在Cradle生成動作並決定在環境中執行後,將觸發執行器將這些語義動作對映為作業系統級別的鍵盤和滑鼠命令,以與環境進行互動。
目前 Cradle 已經可以在應用和遊戲領域取得非常優秀的表現。CRADLE不僅能夠操作日常軟體,如Chrome、Outlook和飛書,還能夠使用美圖和剪映進行圖片和影片編輯。
在遊戲方面,Cradle 史無前例地跟隨《荒野大鏢客2》的主線劇情遊玩了40分鐘,在《都市:天際線》中建立一個擁有千人的城市,在《星露穀物語》中種植和收穫防風草,甚至在《當鋪人生2》中能夠進行交易和議價,在一週內實現87%的最大化總利潤!
想象一下,當你找不到小夥伴和你一起聯機遊玩《星露穀物語》時,你可以找到 Cradle 幫你打理你的農場。或者下一次開啟直播間,標題掛著的可能就是“AI獨立通關xxx遊戲”了。Cradle 展現出的能力十分驚歎,期待這個專案後續的發展。
專案地址:
https://github.com/baai-agents/cradle

二、LivePortrait

近日,快手和復旦大學、中科大共同研發的 LivePortrait 開源了。這同樣是一款圖生影片的大模型。提供一張正臉照,一段影片,照片上的人物就會栩栩如生的模仿影片中的表情了。
不知道大家有沒有用過蘋果的擬我表情,就是那個你可以選擇一個動物或者其他東西的貼紙,然後錄製一小段影片,貼紙角色會模仿你的口型。LivePortrait 實現的其實和這個功能差不多。其實這類數字人專案我們也介紹過很多,不過這次的 LivePortrait 是國產團隊研發的,效能也很不錯,生成影片超快。
透過擴充套件訓練資料到約 6900 萬高質量幀和採用混合影像影片訓練策略,LivePortrait 能夠更好地泛化,適應更多不同型別的輸入資料。此外,LivePortrait 利用緊湊的隱式關鍵點代表混合形狀,並設計縫合和重定向模組,這些模組使用計算開銷極小的小型MLP,從而增強了對生成動畫的控制能力。
甚至經過微調,你可以讓小動物們模仿人的表情!
專案的部署也比較簡單,首先克隆倉庫,使用conda建立虛擬環境,安裝所需的依賴項和FFmpeg。然後下載模型的權重檔案,放到相應的目錄,透過指令碼執行即可。當然,如果你缺少一些相應的算力或是嫌部署過於麻煩,你也可以透過 HuggingFace 線上使用。感興趣的小夥伴可以自行體驗看看。
線上體驗地址:
https://huggingface.co/spaces/KwaiVGI/LivePortrait
專案地址:
https://github.com/KwaiVGI/LivePortrait
好了,本期的內容就是這麼多,我們下期再見!
·················END·················

相關文章