同臺對壘:谷歌最強量子晶片登場!Sora開服被擠爆!|【經緯低調分享】

OpenAI的最新力作Sora已經開放,為ChatGPT Plus/Pro使用者帶來了直接生成影片的震撼功能。
這款應用一上線就因其強大的影片生成能力而備受追捧,導致伺服器被擠爆。Sora Turbo不僅支援1080p、20秒影片的生成,還相容多種影片尺寸,從現實地標建築到非寫實風格的影片,都能以高解析度呈現出令人印象深刻的效果。儘管Sora在物理規律理解方面還有待提高,但它的問世無疑為影片創作帶來了革命性的變化。
影片生成需要高度依賴算力,晶片不夠怎麼辦?同一天,谷歌最強量子晶片登場!今日凌晨,谷歌推出了最新的量子晶片Willow。這款晶片在基準測試中展現出驚人的計算能力,能在不到5分鐘的時間內完成一項計算任務,而這項任務在最先進的超級計算機上需要超過10^25年。
Willow的問世不僅實現了量子位元數量增加時錯誤率的指數級下降,還首次在超導量子系統上即時糾錯成功,為量子計算的實用化邁出了重要一步。這一成果不僅得到了科技界的高度評價,甚至連馬斯克也表達了驚歎。谷歌也向下一個挑戰也可以說是目標發起衝擊——
Alphabet及谷歌CEO皮查伊表示:
高階 AI 將顯著受益於量子計算。量子演算法有基本的縮放規律作為支撐,正如我們用 RCS 看到的那樣。對於許多對人工智慧至關重要的基礎計算任務,也存在類似的縮放優勢。因此,量子計算對於收集經典機器無法訪問的訓練資料、訓練和最佳化某些學習架構以及對量子效應很重要的系統進行建模將是不可或缺的。這包括幫助我們發現新藥、為電動汽車設計更高效的電池,以及加速聚變和新能源替代品的進展。許多此類未來改變遊戲規則的應用程式在經典計算機上將不可行;它們正等待著量子計算來解鎖。
同一天,兩大科技公司釋出新品,哪一個更能讓你心潮澎湃?哪一個對未來更有深遠影響?以下,Enjoy:
文章:《剛剛,OpenAI Sora正式炸裂登場,網頁擠爆了!》
來源:機器之心編輯部
山姆・奧特曼:「影片版的 GPT-1 時刻來了。」
OpenAI 12 天連更的第三個工作日,重磅釋出終於來了!
正如直播之前大家在評論區預想的一樣,影片生成大模型 Sora 正式版終於露面!
算起來,距離今年 2 月 16 日 Sora 的釋出已經過去了近 10 個月的時間。
如今,廣大網友終於可以體驗 Sora 強大的影片生成能力!
同時,OpenAI 開發了 Sora 的新版本 ——Sora Turbo,它比二月份的預覽版模型快得多。今天該版本將作為獨立產品提供給 ChatGPT Plus 和 Pro 使用者。
據今天的直播介紹,Sora 使用者可以生成 1080p 解析度、最長 20 秒、寬屏、豎屏或方形的影片。並且使用者可以利用資源進行擴充套件、remix 和融合,或者基於文字生成全新的內容。OpenAI 開發了全新的介面,讓使用文字、影像和影片來提示 Sora 變得更加容易,同時故事板工具讓使用者可以精準地指定每個幀的輸入。
我們可以先看幾個生成影片示例:
提示:鏡頭霧氣瀰漫,色彩對比鮮明,捕捉到的感覺是低能見度的鏡頭質量,提供一種即時感和混亂感。該場景從 17 世紀海盜船上水手的視角展示了搖晃的鏡頭。海浪衝擊木製船體時,地平線劇烈搖晃,難以辨別細節。突然,一隻巨大的海怪從洶湧的大海中突然出現。它巨大而滑溜的觸手危險地伸出,黏糊糊的附肢以可怕的力量纏繞著船。當水手們慌亂地爭先恐後地面對這個可怕的海洋生物時,視野發生了劇烈變化。氣氛非常緊張,混亂中可以聽到船的呻吟聲和大海的咆哮聲。
提示:洛克菲勒中心到處都是金毛獵犬!無論你放眼望去,都是金毛獵犬。這是紐約夜間的冬季仙境,還有一棵巨大的聖誕樹。背景中可以看到計程車和其他紐約元素
山姆・奧特曼表示,最令他興奮的一點是與其他人共同創作的便捷性,感覺就像是一個有趣的新事物。大家可以將 Sora 看作影片版的 GPT-1。
OpenAI 研究科學家 Noam Brown 表示,Sora 是 scale 力量最直觀的展示。
對於 Sora 的釋出,有網友表示,這是最好的聖誕節禮物,也有稱 Sora 將是遊戲改變者。
1
透過文字、圖片或影片
讓你的想象力栩栩如生
想要體驗的網友太多,一直登入不上:
體驗地址:https://sora.com/onboarding
那就先為讀者們展示下官方放出的 Sora 的能力吧。
使用 Remix 替換、刪除或重新構想影片中的元素
開啟通往圖書館的大門
將門替換為法式門

門外的場景替換為月球景觀
Re-cut:找到並隔離最佳幀,然後向任一方向延伸它們以完成場景
Storyboard:在時間線上組織和編輯影片的獨特序列
影片前 114 幀的場景是「一片廣闊的紅色景觀,遠處停靠著一艘宇宙飛船。」
接著,可以將影片的 114-324 幀的場景變換為:「從宇宙飛船內部向外看,一位太空牛仔站在畫面的中央。」
最後,可以將影片內容描述為「宇航員眼睛的特寫鏡頭,眼睛被針織面料製成的面罩所框住。」
‍Loop:使用 Loop 剪輯並建立無縫重複的影片
Blend:將兩個影片合併為一個無縫剪輯
Style presets:使用「Presets」建立和分享激發自己想象力的風格
更多 Sora 生成的驚豔影片,也需要廣大網友們的想象力去創造了。
2
Sora 正式版系統卡
在今年 2 月份,Sora 剛釋出時,OpenAI 曾公佈了 Sora 的技術報告(參閱:我在模擬世界!OpenAI 剛剛公佈 Sora 技術細節:是資料驅動物理引擎)。
OpenAI 認為,擴充套件影片生成模型是構建物理世界通用模擬器的一條有前途的途徑。
今天隨著 Sora 的正式釋出,OpenAI 也放出了 Sora 的系統卡(System Card),感興趣的開發者們可以深挖一下技術細節。
地址:https://openai.com/index/sora-system-card/
Sora 是 OpenAI 的影片生成模型,旨在獲取文字、影像和影片輸入並生成新影片作為輸出。使用者可以建立各種格式的高達 1080p 解析度(最長 20 秒)的影片。
Sora 建立在 DALL・E 和 GPT 模型的基礎上,旨在為人們提供創意表達的工具。
Sora 是一種擴散模型,它從看起來像靜態噪聲的基本影片開始生成新影片,透過多個步驟消除噪聲來逐漸對其進行轉換。透過一次為模型提供多幀預測,Sora 解決了一個具有挑戰性的問題,即確保畫面主體即使暫時離開視野也能保持不變。與 GPT 模型類似,Sora 使用 transformer 架構,釋放出卓越的擴充套件效能。
Sora 使用 DALL・E 3 中的重描述(recaptioning)技術,該技術涉及為視覺訓練資料生成高度描述性的字幕(captions)。因此,Sora 能夠更忠實地遵循生成影片中使用者的文字指令。
除了能夠僅根據文字指令生成影片之外,該模型還能夠獲取現有的靜態影像並從中生成影片,準確地將影像內容動畫化並關注細節。該模型還可以獲取現有影片並對其進行擴充套件或填充缺失幀。Sora 是能夠理解和模擬現實世界的模型的基礎,OpenAI 認為 Sora 將成為通往 AGI 的重要里程碑。
在資料方面,正如 OpenAI 在 2 月的技術報告中所述,Sora 從大型語言模型中汲取靈感,這些模型透過網際網路規模資料的訓練來獲得通才能力。LLM 得以確立新正規化,部分得益於創新了 token 使用的方法。研究人員們巧妙地將文字的多種模態 —— 程式碼、數學和各種自然語言統一了起來。
在 Sora 中,OpenAI 考慮了生成視覺資料的模型如何繼承這種方法的好處。大型語言模型有文字 token,而 Sora 有視覺 patch。此前的研究已經證明 patch 是視覺資料模型的有效表徵。OpenAI 發現 patch 是訓練生成各種型別影片和影像的模型的可擴充套件且有效的表徵。
在更高層面上,OpenAI 首先將影片壓縮到較低維的潛在空間,然後將表徵分解為時空 patch,從而將影片轉換為 patch。
Sora 接受過各種資料集的訓練,包括公開資料、透過合作伙伴獲取的專有資料以及內部開發自定義資料集:
  • 公開可用的資料。這些資料主要從行業標準的機器學習資料集和網路爬蟲中收集。
  • 來自資料合作伙伴的專有資料。OpenAI 建立合作伙伴關係來獲取非公開資料。例如,與 Shutterstock⁠ Pond5 合作構建、提供人工智慧生成的影像。OpenAI 還委託建立適合自己需求的資料集。
  • 人工資料。來自人工智慧訓練師、紅隊隊員和員工的反饋。
更多細節,讀者們可以檢視系統卡介紹。
3
價格權益
當然,隨著 Sora 的正式釋出,OpenAI 也公佈了使用價格。看來,也並不便宜:
20 美元一個月的 ChatGPT Plus 使用者可以享受的影片生成權益包括:
  • 最多 50 個優先影片(1000 個積分)
  • 解析度高達 720p,時長為 5 秒
200 美元一個月的 ChatGPT Pro 使用者可以享受的影片生成權益包括:
  • 最多 500 個優先影片(10000 個積分)
  • 無限 relaxed 影片
  • 解析度高達 1080p,持續時間為 20 秒,可併發生成 5 個
  • 下載無水印
畢竟期待了這麼久。你們衝不衝?
參考連結:https://openai.com/sora/
也許你還想看:

經緯張穎:2023,不只克服困難而是習慣困難 

經緯張穎內部講話:2024,四大關鍵決策

經緯2023年終盤點:Adaptability is the key to thriving


相關文章