ChatGPT-4o，人類「AI助理」的一大步｜ZTalk

Z Talk 是真格分享認知的欄目。

我們在這裡談論最新的行業觀察，先鋒的創業動態，也在這裡與真格老友相聚。我們相信持續的學習和進化，相信最深刻的認知來自實踐。

當地時間 5 月 13 日上午 10 點，OpenAI 召開春季釋出會，正式釋出 GPT-4 的迭代版本 GPT-4o ——一個「原生多模態」模型，命名來源於「omni」，即包羅永珍之意。

真格基金始終高度關注 AI 領域的最新進展，並期待與你分享與探討。

作者 | 黎詩韻

編輯 | 靖宇

5 月 13 日，OpenAI 用一場春季釋出會，再次攪動了整個 AI 行業。

在 Sam Altman 缺席的情況下，OpenAI CTO Mira Murati 擔綱介紹了新的 ChatGPT 產品 ChatGPT-4o。

短短 26 分鐘的釋出會，卻幾乎是科幻電影《Her》的現實演繹。當你開啟 ChatGPT，你面對的不再是一個只會幫你生成內容、或者進行僵硬語音聊天的工具——你喚起的將是一個「無所不能」的語音助手，或者說，一個越來越接近人類的「物種」。

它長出了「眼睛」，可以透過攝像頭看到你，比如它透過研究員上揚的嘴角判斷他的心情、透過他周圍的環境背景判斷了他正在做什麼、甚至給出了造型建議；它能「看到」你的電腦桌面，直接幫你檢視寫的程式碼有什麼問題。

它有了更靈敏的「耳朵」，能聽懂的不只是語言，還能聽懂研究員過於急促的呼吸聲，並引導他慢慢平穩呼吸、放鬆下來。

OpenAI CTO Mura Murati 宣佈推出 ChatGPT-4o

圖片來源：OpenAI

它有了更靈活的「嘴巴」，對話不再有延時，你能隨時打斷它、它能隨時接住你的話。它的聲音能帶入感情，比如更冷靜一點、更激昂一點、甚至諷刺一點。它還能唱歌。

它也有了更聰明的「大腦」。它能幫研究員一步步解不等式，還可以做同聲翻譯、你可以透過它跟不同語種的人們交流。

這些強大的能力背後，源自 OpenAI 推出的新模型 GPT-4o。與現有模型相比，GPT-4o 的最大進步在於，它可以即時對音訊、視覺和文字進行推理——換句話說，它讓 ChatGPT 實現了真正意義上的多模態互動。

這不僅僅是技術進步的追求，更是應用普及的追求。OpenAI 的使命之一是讓 AI 普惠每個人，讓使用者能順滑地用上 AI 是至關重要的。在「模型即應用」的時代，這種互動體驗最終還是靠模型能力的提升。OpenAI 稱，GPT-4o（「o」代表「omni」）是邁向更自然的人機互動的一步。

釋出會上，Mira Murati 宣佈 ChatGPT-4o 將免費向所有使用者開放，而付費和企業使用者，可以搶先獲得體驗。電影《Her》上映於 2013 年，它講述了一位人類愛上一位人工智慧語音助理的故事。從今天 ChatGPT 呈現的能力來看，這樣的想象正在加速成為現實。

ChatGPT 的驚人進步

在 OpenAI 的官網上，呈現了 ChatGPT 作為個人語音「超級助理」的更多驚人應用場景。

首先是面向單個使用者，和人一樣，它提供的主要是「情緒價值」與「認知價值」。比如它能講笑話、唱生日快樂歌、玩遊戲、逗小狗、給人催眠、讓人放鬆等等；它能充當面試官，給人提供面試建議；它還能給一位盲人提供環境觀察，給他講述看到的景色、提醒他過馬路的路況。

盲人使用者使用 ChatGPT-4o「觀察」整個世界

圖片來源：OpenAI

接著是面向多個使用者，它提供的更多是一種「協同價值」。比如給兩個語言不通的人充當翻譯，讓他們能無障礙溝通；給兩個人做「剪刀石頭布」的遊戲裁判，先喊口令讓遊戲開始、之後還能準確判斷是哪個人贏了；充當一名「家教」，幫一位父親輔導他的孩子做作業；甚至作為一名「會議第三方」，主持和記錄多人會議。

最有意思的還是，不同 ChatGPT 之間的對話。這種無需人類參與的溝通，不僅充滿了科幻感，更讓人開始想象無需人類協作、而讓機器代替人類協作的未來。在一段演示中，一位使用者要求一部手機的 ChatGPT 代表自己，向另一部手機的 ChatGPT 申請售後，結果這兩個 ChatGPT 毫無阻礙地聊了兩分鐘，順利幫這位使用者「換了貨」。而 OpenAI 總裁 Greg Brockman 則做了一個調皮的演示，他讓兩個 ChatGPT 互動並唱了歌。

OpenAI 總裁 Greg Brockman 演示兩個 GPT 的互動

圖片來源：OpenAI

一位曾在 10 年前就開始做「AI 語音助理」的前大廠高管對極客公園表示，他當時就設想過 AI 助理的終極形態應該是「多模態、無所不能」，但彼時技術並不支援，他認為 ChatGPT 會加速這種設想實現的可能——只是他沒想到，這個過程會來得這麼快。

他認為，實現 AGI 的一個關鍵標誌是，機器是否能具備了自主學習、自主迭代、自主解決問題等能力。這個突破看起來很遙遠，但當兩個 ChatGPT 開始互相聊天的時候，這個鴻溝看起來似乎淺了一點點。

GPT-4o 多模態大模型的技術進步、以及安全性

這些驚豔的產品表現，根本上源自於 GPT-4o 多模態大模型的技術進步。後者分為文字、語音、影像三部分，GPT-4o 在這三塊都有提升，尤其是後兩者。

在文字方面，據 OpenAI 的技術報告，GPT-4o 在 MMLU（語言）、GPQA（知識）、MATH（數學）、HumanEval（程式設計）的評測指標上，都超出了 GPT-4T、GPT-4 (23 年 3 月最初發布版本)，以及競品 Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0。比如在 0-shot COT MMLU 上，GPT-4o 創下了 88.7% 的新高分。

GPT-4o 在文字上的成績相當優異

圖片來源：OpenAI

最關鍵的，是音訊、多語言和視覺上的進步。

在音訊方面，過去 ChatGPT 的音訊缺陷是需要經過三個獨立的模型，從而存在延遲、且無法承載豐富資訊。它先由第一個模型將音訊轉錄為文字，再由 GPT-3.5 或 GPT-4 接收文字並輸出文字，最後由第三個模型將該文字轉換回音訊——一方面，它使得音訊的傳輸存在延遲，GPT-3.5 的平均延遲為 2.8 秒，GPT-4 的平均延遲為 5.4 秒。另一方面，模型會丟失大量資訊，從而無法直接觀察音調、多個說話者或背景噪音，也無法輸出笑聲、歌唱或表達情感。

而 GPT-4o 的解決辦法是，跨文字、視覺和音訊端到端地訓練了一個新模型，這意味著所有輸入和輸出都由同一神經網路處理。OpenAI 稱這是其突破深度學習界限的最新舉措。目前，GPT-4o 可以在短至 232 毫秒、平均 320 毫秒的時間內響應音訊輸入，與人類的響應時間相似。同時在音訊 ASR 效能和翻譯效能上，GPT-4o 都比 Whisper-v3（OpenAI 的語音識別模型）的效能更優。

M3Exam 基準測試既能用於多語言評估，也可以用於視覺評估。它由多項選擇題組成，包括圖形和圖表。在所有語言的基準測試中，GPT-4o 都比 GPT-4 更強。另外在視覺理解評估上，GPT-4o 在視覺感知基準上都實現了最先進的效能。

GPT-4o 在視覺理解上同樣能力不錯

圖片來源：OpenAI

一位大模型訓練者曾對極客公園表示，模型的技術領先性從來不是靠打榜評分，而是靠使用者最真實的感受和體驗。從這個角度來說，GPT-4o 的技術領先性將很容易見分曉。

OpenAI 表示，GPT-4o 的文字和影像功能將於釋出會當天在 ChatGPT 中推出。免費使用者就可以使用，不過 Plus 付費使用者能享受高達 5 倍的訊息容量。在未來幾周內，OpenAI 會在 ChatGPT Plus 中推出新版本的語音模式 GPT-4o alpha。

而開發人員現在就可以在 API 中訪問 GPT-4o 的文字和視覺模型。與 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍、價格降低了一半、速率限制提高了 5 倍。在未來幾周內，OpenAI 計劃向一小部分值得信賴的合作伙伴推出 GPT-4o 的新音訊和影片功能。

一項強大的技術最令外界擔憂的，就是它的安全可控性。這也是 OpenAI 最核心的考慮之一。

OpenAI 表示，GPT-4o 透過過濾訓練資料和透過訓練後細化模型行為等技術，在跨模式設計中內建了安全性。其還建立了新的安全系統，為語音輸出提供防護。為了保證更好的安全性，OpenAI 表示在接下來的幾周和幾個月裡，將致力於技術基礎設施、培訓後的可用性以及釋出其他模式所需的安全性。

OpenAI 從沒讓外界失望

作為這波 AI 浪潮的開啟者、引領者，OpenAI 的每一次釋出和更新，都關係著其龐大使用者量的漲跌、公司競爭的進退、以及整個行業的關注和走向。

在這次釋出會之前，外界對 OpenAI 頗多謠傳、也包括質疑。一週前，外媒報道此次 OpenAI 要釋出的是一款搜尋引擎——在一年最重要的新聞釋出時刻，這家公司沒有推出 GPT-5，這引來外界對其創新力的頗多懷疑。而如果無法拿出足夠創新力的技術和產品，這家公司將難以重振使用者的增長、滿足整個市場對它的期待。

自 2022 年底推出 ChatGPT 後，這家公司的使用者量經歷了大起大落。據 Similarweb 估計，其全球訪問量在 2023 年 5 月達到 18 億次的峰值。但進入 2023 年下半年後，其使用者量則有所下降，至今仍未追平去年 5 月的全球訪問量峰值記錄。

自 2022 年 11 月以來，ChatGPT 在全球和美國的流量增長情況

圖片來源：Similarweb

這次釋出會，直接關係著其使用者量的增長情況。

外界對搜尋引擎還是頗為關注的，Similarweb 表示這個訊息當天讓 ChatGPT 流量大漲。不過，在釋出會前兩天，OpenAI CEO Sam Altman 才對外澄清，此次既不會發 GPT-5、也不會發搜尋引擎，「但我們一直在努力開發一些我們認為人們會喜歡的新東西！對我來說感覺就像魔法一樣。」他把這件事描述得更小了。

或許，人們是在一種低期待中觀看這次 OpenAI 的釋出會。但最終，他們收穫到的是一次強烈的震撼。這或許正是 OpenAI 想要的反差效果。

無論是最初的 GPT-3.5，還是去年這個時候的 GPT-4，還是去年底的 GPTs，又或者是今年年初的 Sora——OpenAI 再一次證明，它不會讓世人失望。儘管 Google、Claude、Character AI、Perplexity 等競爭對手正攫走更多新使用者、以及資本的青睞，但 OpenAI 依然證明自己有能力引領著科技創新的「高地」。

ChatGPT 和其他聊天機器人的訪問量對比

圖片來源：Similarweb

在此次 OpenAI 推出基於 GPT-4o 的「超級智慧助理」之後，這似乎也將成為接下來各科技大廠爭先追趕的方向。

據外媒報道，近期谷歌一直在測試使用人工智慧打電話。傳聞，它將推出一款名為「Pixie」的多模態個人助理，作為「Google Assistant」的替代品。它可以透過攝像頭檢視物體，並執行人類指令。這在明天的 Google I/O 大會上就會見分曉。

而近日，外媒亦報道，蘋果即將與 OpenAI 達成協議——在 6 月份蘋果舉辦的年度全球開發者大會上，蘋果或將在 iOS 18 中引入由 ChatGPT 提供支援的「聊天機器人」，這或將對蘋果的個人語音助理 Siri 帶來顛覆性影響。

難以想象，僅僅一年半的時間，OpenAI 就將技術推到了今天這個地步、讓「超級助理」的想象這麼快發生在我們眼前。然而，這也只是 OpenAI 釋放的技術實力的一角。畢竟，我們今天談到的僅僅是 GPT-4 的更新，還沒有說到 GPT-5。OpenAI 到底會給我們帶來多少震撼、以及隨之會產生多少憂慮，都是未知的問題。

如果站在科技的未來隧道往回看，今天 GPT-4o「超級語音助理」的誕生，或許會成為科技史上一個標誌性的時刻。但或許又如同 OpenAI 營運長 Brad Lightcap 幾天前所說，「在接下來的 12 個月裡，我們應該會覺得今天使用的（AI）系統糟糕得可笑。」