谷歌正在摧毀OpenAI和Sora

就在薩姆·奧特曼,以為他們已經憑藉Sora遙遙領先於競爭對手時……谷歌隨之掩殺而來,並用其新的 Veo 2 影片創作 AI 模型擊敗了它們。
已經過去一週了。但是 Sora 似乎已經有點過時了,沒人關心了。
谷歌歸來
自ChatGPT問世以來,過去兩年AI之戰一直未曾平息。科技巨頭的風光,特別是AI技術,一度被OpenAI搶去。
此外,同為科技巨頭的Meta、微軟、Amazon不斷施壓,以馬斯克旗下xAI為代表的AI初創企業如春筍湧現,有些讓谷歌有一些“喘不上氣”。
作為谷歌的勁敵之一,微軟CEO薩提亞·納德拉曾嘲諷道,“從人才、資料、算力等資源算來,谷歌本是這場AI競賽的贏家,但現實並非如此。”
1月2號深夜,谷歌的 Veo 2、Imagen3、Whisk一套組合拳襲來,AI影片和生圖根據,再次被改寫了。
從此模型表現來看,谷歌收穫一眾好評。在編碼、數學、邏輯推理等方面,谷歌模型的表現一度超越OpenAI等對手。
在剛剛結束的OpenAI“雙十二”直播中,備受期待的Sora終於亮相,但實際表現卻意外“拉胯”,令人大失所望。
相比之下,從官方及網友實測分享的影片生成結果來看,谷歌Veo 2模型的輸出效果顯然更加逼真,生成的“幻覺”問題更少。
“哭死,那個曾經的老大哥——谷歌,終於回來了!”網友感嘆道。
谷歌執行長劈柴在前幾天的發言時充滿信心,“在歷史上,你並不一定總是第一,但必須力爭成為同類產品中最好的,我認為這就是2025年的意義所在。”

效果展示

來看看,這些火烈鳥到底在幹什麼,Sora的表現如何 ?
我不太確定滑板的動作,因為它的速度太快了,但它看起來確實很逼真。而且攝像機的運動非常動態和流暢。還可以看看背景中的觀眾。
這條訊息已經在網際網路上瘋傳:
Veo 2的輸出
Sora的輸出
Google Veo 2的影片在各方面都表現得更好。
看他逼真的動作——西紅柿真的被切成薄片並分開了,可以看看它們是如何根據切片動作的。再看右Sora,都切到手了,還在切。
有網友說,在理解物理世界和一致性上,Veo 2已經到了next level。
高達4K的解析度,大大提升的細節和真實感,人體動作和表情的改善,以及更好的物理建模和時間一致性,都讓Veo 2達到了頂級AI影片模型的級別。
在Meta的Movie Gen Bench上,Veo已經可以和Kling、Minimax、Sora掰手腕了
Veo 2強勢升級,4K電影級畫質
想象一下,只用簡單文字描述,就能生成高達4K、超長分鐘的精美影片。
Veo 2正是這樣一個顛覆性的創新。
它可以遵循簡單和複雜的指令,並在物理模擬過程中,展現出令人驚歎的生成質量。
鏡頭如清風般輕柔地穿梭在粉彩色的木製蜂箱之間,勤勞的蜜蜂翩翩起舞,時隱時現於畫框之中。畫面緩緩停駐在場景中央那位氣質優雅的養蜂人身上,他身著的潔白養蜂服在金色的午後陽光中熠熠生輝。他輕抬著一罐琥珀色的蜂蜜,略微傾斜著讓陽光透過蜜液折射出溫暖的光暈。在他身後,一片高大的向日葵隨著微風輕輕搖曳,金黃的花瓣在溫暖的陽光照耀下綻放出柔和的光芒。鏡頭徐徐上移,展現出一座典雅的鄉村老宅,薄荷綠色的百葉窗點綴其間,搖曳的樹影在牆面上織就出斑駁的光影圖案。這組照片採用35毫米鏡頭搭配柯達Portra 400膠片攝製,浸潤在金色光線中的每一個細節——養蜂人的手套、晶瑩的蜂蜜罐、飽經歲月的蜂箱木紋,都呈現出豐富而細膩的質感層次
現在,Veo 2可以像電影攝影師一樣和我們交流。
不必再費力和它討論技術引數、猜測Gemini的標題,只要用習慣的術語說出想要的內容即可。
Veo 2生成的經典追車場景
另外,我們還可以進行更精確的相機控制,比如下圖就是一個包含第一人稱視角、轉移焦點的提示。
可以看到,車內的皮革內飾、車速表等高頻細節,給人留下極其深刻的印象。
透過人類評估,Veo 2模型在與幾大頂尖影片模型的對比中,脫穎而出。
它不僅僅是簡單地生成影片,更是對現實世界物理規律、人類動作,表情方面得到了極致的理解。
對此,谷歌總結了新模型的三大亮點:
首先是, 增強的真實感和保真度。
相較於其他的AI影片模型,Veo 2在細節、真實感、偽影減少方面得到了顯著的改進。
其次是,領先的運動能力。
Veo 2能以精確的方式生成運動畫面,這主要歸功於它對物理學的理解、和遵循詳細指令的能力。
第三個是,更強大的相機控制選項。
它能精確理解指令,建立各種拍攝風格、角度、運動效果,以及這些元素的組合。
對於創作者而言,Veo 2就像是一個無所不能的AI導演。你可以指定電影型別、鏡頭風格,甚至是特定的電影技巧,它皆可完美呈現。
比如這位在顯微鏡前科學家的面部特寫。
富有電影感的鏡頭捕捉了一位身著暗黃色生化防護服的女醫生,實驗室慘白的熒光燈將她的身影籠罩其中。鏡頭緩緩推進她的面部特寫,細膩的橫向推移突顯出她眉宇間深深刻畫的憂思與焦慮。她專注地俯身於實驗臺前,目不轉睛地透過顯微鏡觀察,手套包裹的雙手正謹慎地微調著焦距。整個場景籠罩在壓抑的色調之中,防護服呈現出令人不安的黃色,與實驗室冰冷的不鏽鋼器械相互映襯,無聲地訴說著事態的嚴峻和未知的威脅。景深精確控制下,鏡頭對準她眼中流露的恐懼,完美傳達出她肩負的重大壓力與責任
再比如,一個從場景中間滑過的低角度追蹤鏡頭。
晨光徐徐升起,為這幅精心佈置的早餐圖景鍍上一層溫暖的金邊。金黃色的楓糖漿如絲綢般緩緩流淌,輕柔地澆注在層層疊起的蓬鬆鬆餅上,每一片鬆餅都嫋嫋升起縷縷暖意盎然的水汽。特寫鏡頭捕捉著金黃酥脆的培根,只見它滋滋作響,細小的油珠在陽光下化作金色光點翩翩起舞。醇香的咖啡優雅地旋轉註入通透的玻璃杯中,逐漸在杯中漾開層層疊疊的焦糖色咖啡奶泡。最後,鏡頭如潛水般俯入一枚剛切開的鮮橙,以震撼的微距視角展現出飽滿晶瑩、汁水四溢的果肉紋理
更令人驚歎的是,Veo 2對專業術語的理解。
只需在提示中輸入「18mm lens」,Veo 2就得知建立拍攝廣角鏡頭,或在提示中加入「淺景深」(shallow depth of field)它便可模糊背景,突出主體。
不僅如此,Veo 2很少有「幻覺」,比如AI影片中多出的手指問題。
沃頓商學院教授Ethan Mollick實測Sora時,結果發現水獺在飛機上使用WiFi的畫面中,長出了人類的手,非常詭異。
看看Veo 2在雙手細節的生成,堪稱極致。
當然,Veo 2生成的影片,並非沒有破綻。
它在建立逼真、充滿活力或複雜的影片,以及在複雜的運動場景中,難以保持一致性。
下面這位冰上舞者的雙腿,在複雜的前進運動中,出現了變形。
滑滑板的男孩,在空中翻越時,雙腿雙手出現了幻覺。
在安全性方面,谷歌為Veo 2加入了隱形的SynthID水印,有助於一眼識別是AI生成的內容。
目前,Veo 2已經登入VideoFX,預計明年它將進軍YouTube Shorts等平臺,為內容創作者開啟全新的可能性。
下面分享了Veo 2更多優秀的demo:
左右滑動檢視
Imagen 3:顏色明亮,構圖更精準

備受期待的Imagen 3同時迎來了重大升級。
這次升級的提升,堪稱革命性。首先是影像的整體質感,更加明亮,構圖更為精準。

宛如知名漫畫師創作的橙發少女,像遊戲設定一般宏大的幻想世界,難以分辨是AI還是照片的黑白人像(左右滑動檢視)
在藝術風格的表現上,從照片級寫實到印象派繪畫,從抽象藝術到動漫風格,Imagen 3都能實現更為準確的還原。
其次,它能精準執行使用者的提示詞指令,呈現出更為細膩的細節和更豐富的紋理效果。
在與其他頂級AI生圖模型對決中,Imagen 3取得了最優的人工評估結果。
Imagen 3生成的影像,在所有風格上都得到了提示,包括照片寫實主義、印象主義、動畫和抽象主義。
下面這種冬日雪地中紅松鼠的特寫,彷彿高畫質大片,無論是松鼠的皮毛、空中的雪花,還是背景中松針的虛化,都體現出了細節的考究。
在1940年代風格的歐洲火車站,一對戀人深夜在火車前相擁,整個場景讓人想起眾多電影中的離別場景。
淺景深拍攝的亞洲女子肖像,光影效果一絕。
超現實的場景,Imagen 3也能精準把握,比如下面這隻草莓蜂鳥。整個影像呈現出高解析度的專業攝影手法,景深控制讓蜂鳥和花在虛化的背景中更顯生動。
一拖一創,風格任意定
不僅如此,谷歌還推出了一個全新的嘗試——生成式AI實驗性專案Whisk。
以往,我們都需要輸入冗長、詳細的文字提示來生成影像,Whisk徹底改變了這一形式,現在只用影像就可了。
把圖片簡單一拖,Whisk就能幫我們創作。
在Whisk中,我們可以透過上傳圖片,來定義主體、場景和風格,然後將它們重新混合,創造出自己獨特的作品,比如數字玩偶、琺琅徽章、精美貼紙。
下面,你會看到想象大開的夢幻魚、粉色花環海象、糖粉甜甜圈和長角的奇幻生物貓。
左右滑動檢視
為什麼用影像的prompt就能生圖?
這是因為在系統底層,Gemini模型會自動為我們上傳的圖片生成詳細的文字,隨後文字會被輸入到Imagen 3中處理。
而這一過程,絕非簡單地複製原圖,而是重點提取主題的核心特徵,由此才能讓我們自由組合不同主題、場景和風格元素。
當然,由於Whisk只會提取影像中的幾個關鍵特徵,因此生成影像也可能會和我們的預期不同。
你可能也看出來了,Whisk並不像傳統的影像編輯器,進行畫素級的完美編輯,而是一種嶄新的創意工具,讓人創造性地探索天馬行空的想法。
就如谷歌所說,它的核心價值,是自由嘗試各種可能性,在各種創意方式中進行極致的探索,保留下自己最滿意的作品。
參考資料:
https://blog.google/technology/google-labs/video-image-generation-update-december-2024/
https://blog.google/technology/google-labs/whisk/

相關閱讀:


相關文章