

就在薩姆·奧特曼,以為他們已經憑藉Sora遙遙領先於競爭對手時……谷歌隨之掩殺而來,並用其新的 Veo 2 影片創作 AI 模型擊敗了它們。
已經過去一週了。但是 Sora 似乎已經有點過時了,沒人關心了。
谷歌歸來
自ChatGPT問世以來,過去兩年AI之戰一直未曾平息。科技巨頭的風光,特別是AI技術,一度被OpenAI搶去。
此外,同為科技巨頭的Meta、微軟、Amazon不斷施壓,以馬斯克旗下xAI為代表的AI初創企業如春筍湧現,有些讓谷歌有一些“喘不上氣”。
作為谷歌的勁敵之一,微軟CEO薩提亞·納德拉曾嘲諷道,“從人才、資料、算力等資源算來,谷歌本是這場AI競賽的贏家,但現實並非如此。”
1月2號深夜,谷歌的 Veo 2、Imagen3、Whisk一套組合拳襲來,AI影片和生圖根據,再次被改寫了。
從此模型表現來看,谷歌收穫一眾好評。在編碼、數學、邏輯推理等方面,谷歌模型的表現一度超越OpenAI等對手。
在剛剛結束的OpenAI“雙十二”直播中,備受期待的Sora終於亮相,但實際表現卻意外“拉胯”,令人大失所望。
相比之下,從官方及網友實測分享的影片生成結果來看,谷歌Veo 2模型的輸出效果顯然更加逼真,生成的“幻覺”問題更少。
“哭死,那個曾經的老大哥——谷歌,終於回來了!”網友感嘆道。
谷歌執行長劈柴在前幾天的發言時充滿信心,“在歷史上,你並不一定總是第一,但必須力爭成為同類產品中最好的,我認為這就是2025年的意義所在。”
效果展示
我不太確定滑板的動作,因為它的速度太快了,但它看起來確實很逼真。而且攝像機的運動非常動態和流暢。還可以看看背景中的觀眾。
這條訊息已經在網際網路上瘋傳:

Veo 2的輸出

Sora的輸出
Google Veo 2的影片在各方面都表現得更好。
看他逼真的動作——西紅柿真的被切成薄片並分開了,可以看看它們是如何根據切片動作的。再看右Sora,都切到手了,還在切。
有網友說,在理解物理世界和一致性上,Veo 2已經到了next level。
高達4K的解析度,大大提升的細節和真實感,人體動作和表情的改善,以及更好的物理建模和時間一致性,都讓Veo 2達到了頂級AI影片模型的級別。

在Meta的Movie Gen Bench上,Veo已經可以和Kling、Minimax、Sora掰手腕了

Veo 2強勢升級,4K電影級畫質
想象一下,只用簡單文字描述,就能生成高達4K、超長分鐘的精美影片。
Veo 2正是這樣一個顛覆性的創新。
它可以遵循簡單和複雜的指令,並在物理模擬過程中,展現出令人驚歎的生成質量。

現在,Veo 2可以像電影攝影師一樣和我們交流。
不必再費力和它討論技術引數、猜測Gemini的標題,只要用習慣的術語說出想要的內容即可。

Veo 2生成的經典追車場景
另外,我們還可以進行更精確的相機控制,比如下圖就是一個包含第一人稱視角、轉移焦點的提示。
可以看到,車內的皮革內飾、車速表等高頻細節,給人留下極其深刻的印象。

透過人類評估,Veo 2模型在與幾大頂尖影片模型的對比中,脫穎而出。
它不僅僅是簡單地生成影片,更是對現實世界物理規律、人類動作,表情方面得到了極致的理解。
對此,谷歌總結了新模型的三大亮點:
首先是, 增強的真實感和保真度。
相較於其他的AI影片模型,Veo 2在細節、真實感、偽影減少方面得到了顯著的改進。
其次是,領先的運動能力。
Veo 2能以精確的方式生成運動畫面,這主要歸功於它對物理學的理解、和遵循詳細指令的能力。
第三個是,更強大的相機控制選項。
它能精確理解指令,建立各種拍攝風格、角度、運動效果,以及這些元素的組合。
對於創作者而言,Veo 2就像是一個無所不能的AI導演。你可以指定電影型別、鏡頭風格,甚至是特定的電影技巧,它皆可完美呈現。
比如這位在顯微鏡前科學家的面部特寫。

再比如,一個從場景中間滑過的低角度追蹤鏡頭。

更令人驚歎的是,Veo 2對專業術語的理解。
只需在提示中輸入「18mm lens」,Veo 2就得知建立拍攝廣角鏡頭,或在提示中加入「淺景深」(shallow depth of field)它便可模糊背景,突出主體。

不僅如此,Veo 2很少有「幻覺」,比如AI影片中多出的手指問題。
沃頓商學院教授Ethan Mollick實測Sora時,結果發現水獺在飛機上使用WiFi的畫面中,長出了人類的手,非常詭異。

看看Veo 2在雙手細節的生成,堪稱極致。

當然,Veo 2生成的影片,並非沒有破綻。
它在建立逼真、充滿活力或複雜的影片,以及在複雜的運動場景中,難以保持一致性。
下面這位冰上舞者的雙腿,在複雜的前進運動中,出現了變形。

滑滑板的男孩,在空中翻越時,雙腿雙手出現了幻覺。

在安全性方面,谷歌為Veo 2加入了隱形的SynthID水印,有助於一眼識別是AI生成的內容。
目前,Veo 2已經登入VideoFX,預計明年它將進軍YouTube Shorts等平臺,為內容創作者開啟全新的可能性。
下面分享了Veo 2更多優秀的demo:








備受期待的Imagen 3同時迎來了重大升級。
這次升級的提升,堪稱革命性。首先是影像的整體質感,更加明亮,構圖更為精準。



在藝術風格的表現上,從照片級寫實到印象派繪畫,從抽象藝術到動漫風格,Imagen 3都能實現更為準確的還原。
其次,它能精準執行使用者的提示詞指令,呈現出更為細膩的細節和更豐富的紋理效果。
在與其他頂級AI生圖模型對決中,Imagen 3取得了最優的人工評估結果。

Imagen 3生成的影像,在所有風格上都得到了提示,包括照片寫實主義、印象主義、動畫和抽象主義。

下面這種冬日雪地中紅松鼠的特寫,彷彿高畫質大片,無論是松鼠的皮毛、空中的雪花,還是背景中松針的虛化,都體現出了細節的考究。

在1940年代風格的歐洲火車站,一對戀人深夜在火車前相擁,整個場景讓人想起眾多電影中的離別場景。

淺景深拍攝的亞洲女子肖像,光影效果一絕。

超現實的場景,Imagen 3也能精準把握,比如下面這隻草莓蜂鳥。整個影像呈現出高解析度的專業攝影手法,景深控制讓蜂鳥和花在虛化的背景中更顯生動。

一拖一創,風格任意定
不僅如此,谷歌還推出了一個全新的嘗試——生成式AI實驗性專案Whisk。

以往,我們都需要輸入冗長、詳細的文字提示來生成影像,Whisk徹底改變了這一形式,現在只用影像就可了。
把圖片簡單一拖,Whisk就能幫我們創作。

在Whisk中,我們可以透過上傳圖片,來定義主體、場景和風格,然後將它們重新混合,創造出自己獨特的作品,比如數字玩偶、琺琅徽章、精美貼紙。
下面,你會看到想象大開的夢幻魚、粉色花環海象、糖粉甜甜圈和長角的奇幻生物貓。




為什麼用影像的prompt就能生圖?
這是因為在系統底層,Gemini模型會自動為我們上傳的圖片生成詳細的文字,隨後文字會被輸入到Imagen 3中處理。
而這一過程,絕非簡單地複製原圖,而是重點提取主題的核心特徵,由此才能讓我們自由組合不同主題、場景和風格元素。
當然,由於Whisk只會提取影像中的幾個關鍵特徵,因此生成影像也可能會和我們的預期不同。
你可能也看出來了,Whisk並不像傳統的影像編輯器,進行畫素級的完美編輯,而是一種嶄新的創意工具,讓人創造性地探索天馬行空的想法。
就如谷歌所說,它的核心價值,是自由嘗試各種可能性,在各種創意方式中進行極致的探索,保留下自己最滿意的作品。
參考資料: https://blog.google/technology/google-labs/video-image-generation-update-december-2024/ https://blog.google/technology/google-labs/whisk/
相關閱讀: