
OpenAI 的盲盒終於被開了,深夜追直播什麼的,咱這種老人是做不到了。
等到第二天看了一圈國內的報道,剔除掉「改寫歷史、顛覆世界、震驚全場」的描述。
從標題上,其實很簡單就能看出這次 OpenAI 在釋出會上到底幹了什麼。
影片語音互動絲滑到嚇人
幹翻所有語音助手
即時語音影片互動震撼全場
……
以及 90% 標題裡會點到的一個詞:「免費」。
是的,如果你還不瞭解釋出會的內容,咱們一句話就能總結——
在 OpenAI 的春季釋出會,上新了一款主打互動的旗艦新模型 GPT-4o,不是 omg 的 o,是 omni(全面、全能)的 o,而且最關鍵的是,對所有使用者免費開放。
是的,你現在訪問這個連結。
https://chatgpt.com/?model=gpt-4o
只要能登上賬號,無論有沒有給 OpenAI 交錢,都能看到一個彈窗。

點個立即試用,隨便聊上一句,回答你的就是 GPT-4o。

如果暫時拋開 GPT-4o 的強度和新特性不談,就衝這個新模型人人免費的事,我要是第二天開發佈會的谷歌,那多少得失眠。
濃眉大眼的奧特曼,怎麼又來懟臉狙擊?
不對,總是在推特上給自家 GPT 帶貨的奧特曼,在直播裡壓根就沒現身。
頗有一種,「是誰釋出的不重要,釋出了什麼更重要」的絕對自信。

那 GPT-4o 有多強?
OpenAI 早兩天偷偷把官網上 GPT-4 曾經那不可一世的「最先進」,改成了「先進」。
從各種冷冰冰的測試資料看,GPT-4o 文字、程式碼這樣的基礎能力保持了和前代差不多的水準。
但報道里反覆提及的多模態互動,GPT-4o 是吊打友商的存在。

多模態這個概念,早早就被提出來了,說人話就是讓大模型不光在認字這一個維度,還可以根據語音、圖片、影片完成互動。
那如何讓大模型聽得懂,也看得懂?過去的方案,聽起來像搭積木。
咱們就以相對簡單的語音互動為例,三步走——
1、語音轉文字;
2、文字傳入大模型,生成新文字;
3、新文字轉語音。

這樣的實現思路很透明,至少前面多模態被提出的時候,開源社群很快就以外掛的形式 DIY 實現「平替」了。
國內外拿出來給你用的成品大模型,在多模態這裡的技術路線大差不差,甚至說我覺得在使用者體驗上,國內很多模型比 ChatGPT 還要強。
但這麼搭積木的代價呢?
按 OpenAI 這次揭秘的資料來說,多模組之間的互動,會帶來感知明顯的延遲,GPT-3.5(2.8 秒),GPT-4(5.4 秒)。
而且在完成整個任務的過程中,大模型感受不到更多的外界資訊(音調、語氣、背景噪音等)。
GPT-4o 不一樣,不是「偽多模態」,正兒八經的、端到端的原生多模態。
是的,一個模型就把任務流程給跑通了。

這麼做的好處,就是前面提到的延遲,被大幅降低,平均為 320 毫秒就能回應你說的話。
你的情緒、語氣、背景音、背景環境 GPT-4o 都內給你正確反饋。
一個跨文字、音訊、影片,進行即時推理的 AI,你說改寫世界、顛覆歷史太誇張了。
但只說炸不炸?很炸。
說實話,強烈建議大家去 B 站上看一眼釋出會。
一開始看報道,什麼 GPT-4o 充當即時翻譯助手,什麼 GPT-4o 感受情緒、識別場景、隨時打斷,開啟攝像頭就能即時陪伴。

給我的感受是——
就這?就這?就這?
看了釋出會的影片,知道它是一個模型搞定的,感受就變成了——
臥槽!臥槽!臥槽!
不誇張的說,用最少的操作,最絲滑的即時互動,釋出會沒有新想法,卻帶來了更多對未來的想象,OpenAI 確實領先。
而且 GPT-4o 免費了,不光新模型免費,以前 Plus會員獨享的各種能力,包括視覺、聯網、記憶、GPT Store 等等。
一口氣全都打包放出。

如果你有 ChatGPT 的賬號,不妨試試看,全量免費的 GPT-4o,像聯網啥的已經適配了。

PS:生成速度賊快,比之前 GPT-3.5 都要快。
前兩天看報道,說是國內大模型是兩條腿走路:一條腿開源,去做生態;一條腿閉源,去搞商業。
OpenAI 這次徹底不 Open 了,新模型釋出,非但沒有論文,連個技術報告也沒給,但打出了免費這張牌。
你可以說它格局大,但不能忽視免費後,吸引過來的海量對話資料,這才是 OpenAI 能領跑的前提。
說真的,也就是國內訪問不了,要不然不知道多少收費友商,要開始撓頭了。
我本來想測一測音影片互動的,但去查了一下 OpenAI 官X,目前還沒開放使用,連灰度都沒有。
至於為啥延期幾周才能體驗?看了眼幾周後,有個號稱史上最大更新的蘋果釋出會。
再聯想到之前蘋果要和 OpenAI 合作,答案呼之欲出——
ChatGPT 終於活成了 Siri 最想成為的樣子。
科幻終於照進了現實。
