
在 DeepSeek 24 小時前剛剛釋出了 V3 模型 0324 版本更新之後,OpenAI 似乎真的有點「不甘示弱」的較勁感,在北京時間 3 月 26 日凌晨宣佈了新產品的釋出預告。

雖然在正式開始之前,有一些傳言猜測本次有可能釋出 GPT-5,但根據以往 OpenAI 的各種產品釋出節奏來看,這次並不會是一次重磅更新,但本次直播中,釋出的整合進 ChatGPT 中的新版 Sora,還是給大家帶來的意料之外的「節目效果」。
目前,整合進 ChatGPT 中的 Sora,相比於獨立應用版本,能力暫時被侷限在了影像生成,但據 OpenAI 在直播中介紹,該模型比之前的模型有了質的飛躍。
據介紹,開發團隊使用了GPT-4o「全模態」(或可以生成文字、影像、音訊和影片等任何型別資料的模型)能力為基礎,來開發這個版本的 Sora。因此使用者可以直接說出自己的需求,甚至上傳或者拍一張照片,作為提示詞來使用。
比如直播現場的演示環節,就直接用手機給 Sam Altman 在內的三人來了張自拍,並要求 Sora 生成一張「動漫風格的版本」。

這還沒完,他們三人甚至還現場演示了讓 Sora 在圖片上新增一段文字「Feel The AGI」(感受通用人工智慧)。現場畫了第一張新版 Sora 的表情包。
這個現場生成的表情包不僅文字準確清晰,並且準確理解了當代流行梗圖中的包括粗體字等必備元素,已經能直接拿來當梗圖發到各種群裡了。

由於是 OpenAI 官方帶頭整活,評論區也有不少使用者也被激發熱情,嘗試著把相同的提示詞餵給 Grok,用相同的提示詞和照片,生成同樣風格的內容 ———— 但顯然效果還是比新版 Sora 差了不少,反而帶來了更喜感的效果。

除了帶頭畫梗圖,OpenAI 還演示了新版本 Sora 在文字渲染方面的改進,可以讓在影像上生成沒有拼寫錯誤的連貫文字的成功率明顯提升。
在另一個演示場景中,OpenAI 團隊讓 Sora 去生成一幅用於理解相對論的漫畫卡片。
不同於以往生圖模型中,在文字生成部分經常容易變得混亂不堪,甚至是「AI 造字」的情況發生,新版 Sora 其原生影像生成,生成的文字,已經沒有任何明顯錯亂,甚至還在漫畫生成了非常自然流暢的日文,意外的讓日文社群的不少日本使用者「炸鍋」。

對於圖片生成模型來講,過去正確渲染文字是一個巨大的挑戰。如果小標題或文字元素有拼寫錯誤或錯誤,整個影像都可能變得無法使用。
此外在這個案例中,OpenAI 還演示了類似對相對論這樣「世界上現有知識」的正確引用。

「如果我畫一張影像,我會受到自身技能的限制……以及我積累的所有世界知識的限制,」 ChatGPT多模態產品負責人 Jackie Shannon 在接受媒體採訪時解釋這個功能的必要性。
「該模型將世界知識代入其中,因此當你要求生成牛頓稜鏡實驗的影像時,你無需解釋「牛頓稜鏡實驗」這件事它本身是什麼,就能得到準確的影像。」

除了上述這些直播中提到的模型能力改進,OpenAI 還表示新版 Sora 大幅提升了在屬性和物件之間保持正確關係的能力。例如,繫結能力較差的模型可能會將要求生成藍色星星和紅色三角形的提示詞,生成為紅色星星而沒有三角形。
據 OpenAI 介紹,現有的大多數影像模型在這方面都很容易「犯錯」,尤其是當被要求渲染多個專案(通常在5到8個左右)時,經常會混淆顏色和形狀。而新版 Sora 的影像生成功能,可以正確繫結15到20個物件的屬性,在理解各自的複雜需求的同時,保證不會被誤導,從而大幅提高成功率。

除了這些使用體驗上的改進,還有一個細節是,OpenAI 已經確認,新版 Sora 生成影像的時間比以前更長,但 OpenAI 認為這是一個值得的權衡。
「雖然我們在延遲方面肯定還有改進的空間……但(我們覺得)這些生成圖片的質量、功能和世界知識,確實彌補了使用者需要等待的額外幾秒鐘,」Shannon說。
至於生圖領域的安全問題 —— 從去年到今年已經出現多次偽造名人不雅影像、熱點事件虛假影像,以及 Google Gemini 去除照片原水印這樣的問題,OpenAI 團隊強調新版 Sora 已經可以去除照片水印,同時阻止生成性深度偽造影像,並拒絕生成相關的內容請求。同時所有生成的影像都將包含標準的C2PA元資料,以標記該影像是由OpenAI建立的。
目前,新版整合在 ChatGPT 內的 Sora 影像生成模型功能,已經開放給 Pro 和 Plus 訂閱套餐的使用者,並且 OpenAI 承諾,新版 Sora 也會在不久的將來,提供給免費版本和 API。
現在我最想做的,就是立即讓它幫我畫自己的梗圖了。