
OpenAI在昨天的DevDay上,公佈了五項重大創新:即時API、提示詞快取、模型蒸餾、視覺微調、新廣場玩法。
這些新能力似乎預示了OpenAI的戰略重心的變化——加大投入基礎建設、增強其「開發者生態」,而不是直接在「AI應用領域」爭奪終端使用者。
與去年的盛大發布相比,OpenAI昨天的DevDay顯得異常低調——沒有展示重磅產品,而是對現有的AI工具和API套件,進行了漸進式的改進。
今年DevDay的展示重點,是增強開發人員的能力、以及展示社群故事。

分別用一句話為大家概括一下這五大更新:
-
Realtime API:讓開發者可以構建近乎即時的“語音轉語音”的體驗,並可以選擇使用 OpenAI 提供的六種聲音。
-
提示詞快取:類似於 Anthropic 幾個月前推出的快取功能,允許開發人員在 API 呼叫之間快取常用上下文,從而降低成本並改善延遲。
-
模型蒸餾:讓開發人員可以使用較大的 AI 模型(例如 o1-preview 和 GPT-4o)來微調較小的模型(例如 GPT-4o mini)。
-
視覺微調:使開發人員能夠使用「影像」結合「文字」,來微調他們的 GPT-4o 應用程式,“看”的能力被極大強化。
-
新廣場玩法:提示詞新的框架、用法等,以及結構化輸出新的突破,這些讓開發變得前所未有容易。

OpenAI 現場演示使用o1在30秒內構建iPhone iOS應用程式
對於OpenAI來說,最近一段時間可謂多事之秋:核心高管離職、產品兌現不及大眾預期……
然而,伴隨著重大融資進展頻頻,這家備受矚目的獨角獸似乎又回到了正軌,並且在努力說服開發者們,更充分地利用他們的AI模型來創造。
OpenAI 首席產品官凱文·韋爾 (Kevin Weil) 在活動前的記者會上表示:首席技術官米拉·穆拉蒂 (Mira Murati) 和首席研究官鮑勃·麥格魯 (Bob McGrew) 的離職不會影響公司的發展。
OpenAI 指出,過去兩年來,它已將開發人員訪問其API的成本降低了99%——然而這很可能是受到 Meta 和谷歌等競爭對手不斷壓低價格的壓力。

@swyx @ DevDay!
現場觀眾普遍對OpenAI的工程化能力很是認可——
「用o1模型在30秒內構建iPhone iOS應用程式」讓APP開發的門檻進一步降低,更是展現了一種“人人都是開發者”的可能性。
語音即時對話的效果感到驚歎,X上也出現了一批基於純語音互動的創業idea……
比起之前虛擬陪伴的語音對話,Realtime API能實現更貼近日常的即時交流——比如旅行規劃、點餐、教育教學、電商購物等等,純語音的實現又更近了一步。
帶記錄屬性的各類AI硬體產品,未來的語音互動也很快將變得更加自然流暢。

@swyx @ DevDay!
1. 即時對話API
AI語音應用的時代來了!

OpenAI 釋出的 Realtime API,目前處於公開測試階段。
這項新產品使開發人員能夠建立低延遲、多模式體驗,尤其是在語音轉語音應用程式中。
這意味著開發人員可以開始將 ChatGPT 的「語音控制元件」新增到應用程式中。
為了說明該 API 的潛力,OpenAI 演示了Wanderlust的更新版本,Wanderlust 是去年會議上展示的一款「旅行計劃」應用程式。
藉助 Realtime API,使用者可以直接與應用對話,以自然說話的方式規劃行程。該系統甚至允許在說話過程中打斷,模仿人類日常的停頓等場景。
雖然旅行計劃只是一個例子,但即時 API 為各個行業的語音應用程式開闢了廣泛的可能性。

從「客戶服務」到「教育」和「輔助功能工具」,開發人員現在擁有強大的新資源來創造更直觀、響應更迅速的人工智慧驅動體驗。
Godement 解釋道:“每當我們設計產品時,我們基本上都會同時考慮初創公司和企業。因此,在 alpha 階段,我們有許多企業使用 API,以及新產品的新模型。”
Realtime API,本質上簡化了構建「語音助手」和其他「對話式AI工具」的過程,從此以後,就完全無需將多個模型拼接在一起進行轉錄、推理和文字到語音的轉換。
早期應用Realtime API的玩家,如營養和健身指導應用程式Healthify、語言學習平臺Speak,已經將 Realtime API 整合到他們的產品中。
這些實現展示了API在醫療保健、教育等領域,創造更自然、更具吸引力的使用者體驗的潛力。
Realtime API 的定價雖然並不便宜(每分鐘音訊輸入 0.06 美元、每分鐘音訊輸出 0.24 美元),但對於希望建立基於語音開發應用程式的人員來說,仍然可以代表一個重要的價值主張。
2. 提示詞快取
為開發人員大幅節省預算

“提示詞快取”功能,旨在降低開發人員的成本和延遲。
該系統自動對模型最近處理的輸入標記應用 50% 的折扣,這可能會為經常重複使用上下文的應用程式帶來大量節省。
OpenAI平臺產品負責人Olivier Godement表示:“我們一直高負荷運轉。就在兩年前,GPT-3 還大獲成功。現在,我們已將成本降低了近 1000 倍。我試圖舉出一個在兩年內將成本降低近 1000 倍的技術例子——但我找不到。”
成本的大幅降低為初創企業和大型企業探索新的應用提供了重大機遇,而這些應用以前由於費用原因無法實現。

2024 OpenAI DevDay 上的定價表顯示,AI 模型的使用成本大幅降低,與各種 GPT 模型中的非快取令牌相比,快取輸入令牌可節省高達 50% 的成本。新的 o1 模型更是反映了其先進的功能。

這也牽扯到結構化提示詞,只有提示中的字首完全匹配時,才有可能實現快取命中。
要實現快取優勢,需要將靜態內容(如說明和示例)放在提示的開頭,並將可變內容(如使用者特定資訊)放在結尾。這也適用於影像和工具,它們在請求之間必須相同。
3. 模型蒸餾
讓AI模型的訓練更緊湊

也許整場DevDay最具變革性的變化,是引入了「模型蒸餾」。
這種整合的工作流程,允許開發人員使用o1-preview和GPT-4o等高階模型的輸出來提高GPT-4o mini等更高效模型的效能。
日常訓練中,完全可以使用較大的 AI 模型(例如 o1-preview 和 GPT-4o)來微調較小的模型(例如 GPT-4o mini)。
這種方法可以使小公司利用與先進模型類似的功能,而無需承擔相同的計算成本。
它解決了人工智慧行業長期存在的尖端、資源密集型系統與更易於訪問但功能較弱的系統之間的差距。
以一家小型醫療技術初創公司為例,該公司正在為農村診所開發一款人工智慧診斷工具。
使用模型蒸餾,該公司可以訓練一個緊湊型模型,該模型在標準筆記型電腦或平板電腦上執行,可以捕捉大型模型的大部分診斷能力。
這可以將複雜的人工智慧能力帶入資源受限的環境,從而有可能改善醫療服務不足地區的醫療保健結果。
4. 視覺微調:
視覺AI的新前沿

另一項重大更新是為 OpenAI 最新的大型語言模型GPT-4o引入視覺微調。
此功能允許開發人員使用影像和文字自定義模型的視覺理解能力。
此次更新的影響深遠,可能會影響自動駕駛汽車、醫學成像和視覺搜尋功能等領域。
據 OpenAI 稱,東南亞領先的食品配送和拼車公司Grab已經利用這項技術來改進其地圖服務。
據報道,僅使用 100 個示例,Grab 就將車道計數準確率提高了 20%,限速標誌定位準確率提高了 13%。
這個現實世界的應用程式,展示了視覺微調的可能性,可以使用小批次的視覺訓練資料,顯著增強各行各業的人工智慧服務。
以“看”的形式,實現「純視覺」的資訊採集和輸入,將極大延展未來的應用場景。
再結合「即時語音互動」,OpenAI在資訊處理和互動的進展,為新一輪應用的爆發創造了可能。
能想到的場景:比如幫助視聽殘障人士,比如透過視覺識別緊急情況和危險,然後撥打求救電話等等
5. 新廣場功能
構建可持續的AI生態系統

對提示詞的結構框架以及其他用法作出了更多說明。
在一天前就有這部分的內容疑似洩漏,「系統提示詞」也被人扒了出來。
主要包括:“瞭解任務:掌握主要目標、目標、要求、約束和預期輸出。”
-
最小更改:如果提供了現有提示,請僅在簡單時對其進行改進。對於複雜的提示,在不改變原始結構的情況下提高畫質晰度並新增缺失的元素。
-
結論前推理:鼓勵在得出任何結論之前進行推理步驟。注意力!如果使用者提供了隨後發生推理的示例,則 REVERSE 順序!永遠不要以結論開始例子!
-
推理順序:調出提示和結論部分的推理部分(按名稱劃分的特定欄位)。對於每個,確定執行此操作的 ORDER 以及是否需要反轉。
-
結論、分類或結果:應始終出現在最後。

6. OpenAI作地基
AI應用可能迎來新爆發
OpenAI 的 2024 DevDay 標誌著該公司的戰略轉折點,優先考慮生態系統開發,而沒有釋出引人注目的新產品,比如Sora……
對公眾來說,這種方式可能不那麼令人興奮,但卻表明了對AI行業當前挑戰和機遇的成熟理解。
今年的低調活動與2023年的DevDay形成了鮮明對比——去年透過推出GPT Store 和自定義GPT建立工具,引發了「iPhone時刻」般的興奮。
然而,自那之後,AI領域發生了迅速變化——競爭對手取得了重大進展,對訓練資料可用性的擔憂也愈演愈烈。

2024 OpenAI DevDay日程
OpenAI 選擇專注於「改進現有工具」並且「賦能開發人員」,這似乎是對愈演愈烈的AI行業競爭的的精心應對。
透過提高模型的效率和成本效益,OpenAI 旨在保持競爭優勢,同時解決對資源強度和環境影響的擔憂。
隨著 OpenAI 從「顛覆者」轉型為「平臺提供商」,它的成功將在很大程度上取決於其培育蓬勃發展的「開發者生態系統」的能力。
透過提供改進的工具、降低成本、增加開發相關支援,OpenAI為AI領域的長期增長和穩定奠定了基礎,也為新一輪多模態、視聽結合的AI應用爆發創造了可能。
AI即時語音應用已經露出曙光,結合視覺的更加現實可靠的產品,也已經在路上。
可能很多人依然會把OpenAI的這次釋出看作是“擠牙膏”,但不可否認,隨著成本的降低和工程化落地的改善,新的應用、新的創新、新的更全能的開發者,也許會細水長流般綿綿不絕……
戲臺已經搭好,下一幕,誰是新的主角呢?
參考閱讀:
https://www.reddit.com/r/OpenAI/comments/1ftuy0v/openai_leaked_system_prompt_for_generating_system/
https://x.com/search?q=openai%20devday&src=typed_query&f=top
https://techcrunch.com/2024/10/01/openais-devday-brings-realtime-api-and-other-treats-for-ai-app-developers/
https://venturebeat.com/ai/openai-devday-2024-4-major-updates-that-will-make-ai-more-accessible-and-affordable/
https://startupnews.fyi/2024/10/01/openais-devday-brings-realtime-api-and-other-treats-for-ai-app-developers/
https://qz.com/sam-altman-says-doesnt-plan-giant-equity-stake-openai-1851659375

參考閱讀:
新鮮真話,關注一下👆
朋友圈會發一些具體的案例和商業化日常~
AI交流,歡迎加我本人微信:FrankGPTs
