Z Talk 是真格分享認知的欄目。
我們在這裡談論最新的行業觀察,先鋒的創業動態,也在這裡與真格老友相聚。我們相信持續的學習和進化,相信最深刻的認知來自實踐。
當地時間 5 月 13 日上午 10 點,OpenAI 召開春季釋出會,正式釋出 GPT-4 的迭代版本 GPT-4o ——一個「原生多模態」模型,命名來源於「omni」,即包羅永珍之意。
真格基金始終高度關注 AI 領域的最新進展,並期待與你分享與探討。
作者 | 黎詩韻
編輯 | 靖宇
5 月 13 日,OpenAI 用一場春季釋出會,再次攪動了整個 AI 行業。
在 Sam Altman 缺席的情況下,OpenAI CTO Mira Murati 擔綱介紹了新的 ChatGPT 產品 ChatGPT-4o。
短短 26 分鐘的釋出會,卻幾乎是科幻電影《Her》的現實演繹。當你開啟 ChatGPT,你面對的不再是一個只會幫你生成內容、或者進行僵硬語音聊天的工具——你喚起的將是一個「無所不能」的語音助手,或者說,一個越來越接近人類的「物種」。
它長出了「眼睛」,可以透過攝像頭看到你,比如它透過研究員上揚的嘴角判斷他的心情、透過他周圍的環境背景判斷了他正在做什麼、甚至給出了造型建議;它能「看到」你的電腦桌面,直接幫你檢視寫的程式碼有什麼問題。
它有了更靈敏的「耳朵」,能聽懂的不只是語言,還能聽懂研究員過於急促的呼吸聲,並引導他慢慢平穩呼吸、放鬆下來。

OpenAI CTO Mura Murati 宣佈推出 ChatGPT-4o
圖片來源:OpenAI
它有了更靈活的「嘴巴」,對話不再有延時,你能隨時打斷它、它能隨時接住你的話。它的聲音能帶入感情,比如更冷靜一點、更激昂一點、甚至諷刺一點。它還能唱歌。
它也有了更聰明的「大腦」。它能幫研究員一步步解不等式,還可以做同聲翻譯、你可以透過它跟不同語種的人們交流。
這些強大的能力背後,源自 OpenAI 推出的新模型 GPT-4o。與現有模型相比,GPT-4o 的最大進步在於,它可以即時對音訊、視覺和文字進行推理——換句話說,它讓 ChatGPT 實現了真正意義上的多模態互動。
這不僅僅是技術進步的追求,更是應用普及的追求。OpenAI 的使命之一是讓 AI 普惠每個人,讓使用者能順滑地用上 AI 是至關重要的。在「模型即應用」的時代,這種互動體驗最終還是靠模型能力的提升。OpenAI 稱,GPT-4o(「o」代表「omni」)是邁向更自然的人機互動的一步。
釋出會上,Mira Murati 宣佈 ChatGPT-4o 將免費向所有使用者開放,而付費和企業使用者,可以搶先獲得體驗。電影《Her》上映於 2013 年,它講述了一位人類愛上一位人工智慧語音助理的故事。從今天 ChatGPT 呈現的能力來看,這樣的想象正在加速成為現實。
01
ChatGPT 的驚人進步
在 OpenAI 的官網上,呈現了 ChatGPT 作為個人語音「超級助理」的更多驚人應用場景。
首先是面向單個使用者,和人一樣,它提供的主要是「情緒價值」與「認知價值」。比如它能講笑話、唱生日快樂歌、玩遊戲、逗小狗、給人催眠、讓人放鬆等等;它能充當面試官,給人提供面試建議;它還能給一位盲人提供環境觀察,給他講述看到的景色、提醒他過馬路的路況。

盲人使用者使用 ChatGPT-4o「觀察」整個世界
圖片來源:OpenAI
接著是面向多個使用者,它提供的更多是一種「協同價值」。比如給兩個語言不通的人充當翻譯,讓他們能無障礙溝通;給兩個人做「剪刀石頭布」的遊戲裁判,先喊口令讓遊戲開始、之後還能準確判斷是哪個人贏了;充當一名「家教」,幫一位父親輔導他的孩子做作業;甚至作為一名「會議第三方」,主持和記錄多人會議。
最有意思的還是,不同 ChatGPT 之間的對話。這種無需人類參與的溝通,不僅充滿了科幻感,更讓人開始想象無需人類協作、而讓機器代替人類協作的未來。在一段演示中,一位使用者要求一部手機的 ChatGPT 代表自己,向另一部手機的 ChatGPT 申請售後,結果這兩個 ChatGPT 毫無阻礙地聊了兩分鐘,順利幫這位使用者「換了貨」。而 OpenAI 總裁 Greg Brockman 則做了一個調皮的演示,他讓兩個 ChatGPT 互動並唱了歌。

OpenAI 總裁 Greg Brockman 演示兩個 GPT 的互動
圖片來源:OpenAI
一位曾在 10 年前就開始做「AI 語音助理」的前大廠高管對極客公園表示,他當時就設想過 AI 助理的終極形態應該是「多模態、無所不能」,但彼時技術並不支援,他認為 ChatGPT 會加速這種設想實現的可能——只是他沒想到,這個過程會來得這麼快。
他認為,實現 AGI 的一個關鍵標誌是,機器是否能具備了自主學習、自主迭代、自主解決問題等能力。這個突破看起來很遙遠,但當兩個 ChatGPT 開始互相聊天的時候,這個鴻溝看起來似乎淺了一點點。
02
GPT-4o 多模態大模型的技術進步、以及安全性
這些驚豔的產品表現,根本上源自於 GPT-4o 多模態大模型的技術進步。後者分為文字、語音、影像三部分,GPT-4o 在這三塊都有提升,尤其是後兩者。
在文字方面,據 OpenAI 的技術報告,GPT-4o 在 MMLU(語言)、GPQA(知識)、MATH(數學)、HumanEval(程式設計)的評測指標上,都超出了 GPT-4T、GPT-4 (23 年 3 月最初發布版本),以及競品 Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0。比如在 0-shot COT MMLU 上,GPT-4o 創下了 88.7% 的新高分。

GPT-4o 在文字上的成績相當優異
圖片來源:OpenAI
最關鍵的,是音訊、多語言和視覺上的進步。
在音訊方面,過去 ChatGPT 的音訊缺陷是需要經過三個獨立的模型,從而存在延遲、且無法承載豐富資訊。它先由第一個模型將音訊轉錄為文字,再由 GPT-3.5 或 GPT-4 接收文字並輸出文字,最後由第三個模型將該文字轉換回音訊——一方面,它使得音訊的傳輸存在延遲,GPT-3.5 的平均延遲為 2.8 秒,GPT-4 的平均延遲為 5.4 秒。另一方面,模型會丟失大量資訊,從而無法直接觀察音調、多個說話者或背景噪音,也無法輸出笑聲、歌唱或表達情感。
而 GPT-4o 的解決辦法是,跨文字、視覺和音訊端到端地訓練了一個新模型,這意味著所有輸入和輸出都由同一神經網路處理。OpenAI 稱這是其突破深度學習界限的最新舉措。目前,GPT-4o 可以在短至 232 毫秒、平均 320 毫秒的時間內響應音訊輸入,與人類的響應時間相似。同時在音訊 ASR 效能和翻譯效能上,GPT-4o 都比 Whisper-v3(OpenAI 的語音識別模型)的效能更優。
M3Exam 基準測試既能用於多語言評估,也可以用於視覺評估。它由多項選擇題組成,包括圖形和圖表。在所有語言的基準測試中,GPT-4o 都比 GPT-4 更強。另外在視覺理解評估上,GPT-4o 在視覺感知基準上都實現了最先進的效能。

GPT-4o 在視覺理解上同樣能力不錯
圖片來源:OpenAI
一位大模型訓練者曾對極客公園表示,模型的技術領先性從來不是靠打榜評分,而是靠使用者最真實的感受和體驗。從這個角度來說,GPT-4o 的技術領先性將很容易見分曉。
OpenAI 表示,GPT-4o 的文字和影像功能將於釋出會當天在 ChatGPT 中推出。免費使用者就可以使用,不過 Plus 付費使用者能享受高達 5 倍的訊息容量。在未來幾周內,OpenAI 會在 ChatGPT Plus 中推出新版本的語音模式 GPT-4o alpha。
而開發人員現在就可以在 API 中訪問 GPT-4o 的文字和視覺模型。與 GPT-4 Turbo 相比,GPT-4o 速度提高了 2 倍、價格降低了一半、速率限制提高了 5 倍。在未來幾周內,OpenAI 計劃向一小部分值得信賴的合作伙伴推出 GPT-4o 的新音訊和影片功能。
一項強大的技術最令外界擔憂的,就是它的安全可控性。這也是 OpenAI 最核心的考慮之一。
OpenAI 表示,GPT-4o 透過過濾訓練資料和透過訓練後細化模型行為等技術,在跨模式設計中內建了安全性。其還建立了新的安全系統,為語音輸出提供防護。為了保證更好的安全性,OpenAI 表示在接下來的幾周和幾個月裡,將致力於技術基礎設施、培訓後的可用性以及釋出其他模式所需的安全性。
03
OpenAI 從沒讓外界失望
作為這波 AI 浪潮的開啟者、引領者,OpenAI 的每一次釋出和更新,都關係著其龐大使用者量的漲跌、公司競爭的進退、以及整個行業的關注和走向。
在這次釋出會之前,外界對 OpenAI 頗多謠傳、也包括質疑。一週前,外媒報道此次 OpenAI 要釋出的是一款搜尋引擎——在一年最重要的新聞釋出時刻,這家公司沒有推出 GPT-5,這引來外界對其創新力的頗多懷疑。而如果無法拿出足夠創新力的技術和產品,這家公司將難以重振使用者的增長、滿足整個市場對它的期待。
自 2022 年底推出 ChatGPT 後,這家公司的使用者量經歷了大起大落。據 Similarweb 估計,其全球訪問量在 2023 年 5 月達到 18 億次的峰值。但進入 2023 年下半年後,其使用者量則有所下降,至今仍未追平去年 5 月的全球訪問量峰值記錄。

自 2022 年 11 月以來,ChatGPT 在全球和美國的流量增長情況
圖片來源:Similarweb
這次釋出會,直接關係著其使用者量的增長情況。
外界對搜尋引擎還是頗為關注的,Similarweb 表示這個訊息當天讓 ChatGPT 流量大漲。不過,在釋出會前兩天,OpenAI CEO Sam Altman 才對外澄清,此次既不會發 GPT-5、也不會發搜尋引擎,「但我們一直在努力開發一些我們認為人們會喜歡的新東西!對我來說感覺就像魔法一樣。」他把這件事描述得更小了。
或許,人們是在一種低期待中觀看這次 OpenAI 的釋出會。但最終,他們收穫到的是一次強烈的震撼。這或許正是 OpenAI 想要的反差效果。
無論是最初的 GPT-3.5,還是去年這個時候的 GPT-4,還是去年底的 GPTs,又或者是今年年初的 Sora——OpenAI 再一次證明,它不會讓世人失望。儘管 Google、Claude、Character AI、Perplexity 等競爭對手正攫走更多新使用者、以及資本的青睞,但 OpenAI 依然證明自己有能力引領著科技創新的「高地」。

ChatGPT 和其他聊天機器人的訪問量對比
圖片來源:Similarweb
而近日,外媒亦報道,蘋果即將與 OpenAI 達成協議——在 6 月份蘋果舉辦的年度全球開發者大會上,蘋果或將在 iOS 18 中引入由 ChatGPT 提供支援的「聊天機器人」,這或將對蘋果的個人語音助理 Siri 帶來顛覆性影響。
難以想象,僅僅一年半的時間,OpenAI 就將技術推到了今天這個地步、讓「超級助理」的想象這麼快發生在我們眼前。然而,這也只是 OpenAI 釋放的技術實力的一角。畢竟,我們今天談到的僅僅是 GPT-4 的更新,還沒有說到 GPT-5。OpenAI 到底會給我們帶來多少震撼、以及隨之會產生多少憂慮,都是未知的問題。
如果站在科技的未來隧道往回看,今天 GPT-4o「超級語音助理」的誕生,或許會成為科技史上一個標誌性的時刻。但或許又如同 OpenAI 營運長 Brad Lightcap 幾天前所說,「在接下來的 12 個月裡,我們應該會覺得今天使用的(AI)系統糟糕得可笑。」

推薦閱讀
