至於程式設計和軟體工程,GPT-4.5 程式碼生成和修復任務表現有所提升。Agentic Tasks 評估的是 AI 在真實環境中獨立完成複雜任務的能力,包括終端操作(Linux + Python 環境)、資源獲取(如自動下載、執行程式)以及複雜任務執行(如載入和執行 AI 模型)等。OpenAI 釋出的系統卡顯示,GPT-4.5 在自主任務方面仍然受到一定限制,遠未達到真正的自主 AI Agent。
除了普通使用者,GPT-4.5 也向開發者敞開了大門。OpenAI 同步開放了 GPT-4.5 的 API,包括 Chat Completions API、Assistants API 和 Batch API。GPT-4.5 支援函式呼叫(function calling)、結構化輸出(Structured Outputs)、流式響應(streaming)和系統訊息(system messages),並且具備視覺能力,可透過影像輸入進行處理。開發者可以透過 API 介面將 GPT-4.5 整合到自己的應用中,創造出更多有趣、有用的產品。不過,GPT-4.5 計算量極大,成本高昂,因此並不會取代 GPT-4o。並且,OpenAI 仍在評估是否長期在 API 中提供 GPT-4.5,以便在支援當前功能的同時,繼續推進未來模型的開發。
AI 進入「拼情商」時代?本次直播環節由 Mia Glaese、Rapha Gontijo Lopes、Youlong Cheng、Jason Teplitz 和 Alex Paino 主持。當演示人員要求寫一條憤怒簡訊給頻繁取消約會的朋友時,GPT-4.5 能夠識別出使用者的沮喪情緒,並給出了更加微妙且建設性的回應,幫助使用者以更理性的方式表達感受。
據介紹,OpenAI 在開發 GPT-4.5 時實現了幾項關鍵的訓練機制創新。訓練如此大規模的模型需要顯著提升後訓練(post-training)基礎設施,因為預訓練階段和後訓練階段的訓練資料與引數大小比例完全不同。團隊開發了一種新的訓練機制,能夠使用更小的計算資源來微調如此大型的模型。具體來說,他們透過多次迭代,結合了監督式微調(supervised fine-tuning)和基於人類反饋的強化學習(reinforcement learning with human feedback)來完成後訓練過程,最終開發出了可以部署的模型。
在預訓練方面,由 Alex 和 Jason 領導的團隊採取了多項措施來最大化計算資源的利用:使用低精度訓練(low precision training)來充分利用 GPU 效能跨多個數據中心同時預訓練模型,因為他們需要的計算資源超過了單一高頻寬網路架構所能提供的上限此外,團隊構建了新的推理系統,確保模型能在 ChatGPT 中快速響應使用者,保持對話的流暢性。同時,他們表示將在釋出後繼續改進,使模型執行更快。這些訓練和部署機制的創新使團隊能夠將更多計算能力注入模型中,從而實現無監督學習的大規模擴充套件,這也是 GPT-4.5 能夠在不依賴逐步推理的情況下,仍然展現出強大理解能力和較低幻覺率的關鍵原因。
值得一提的是,OpenAI 的首席研究官 Mark Chen 在釋出 GPT-4.5 之前接受了 Alex Kantrowitz 的採訪。當被問到 OpenAI 是否在模型執行效率方面有所改進時,他表示:讓模型的執行更高效這一過程,通常與模型核心能力的開發相對獨立。我看到很多工作都集中在推理(Inference)架構上。DeepSeek 在這方面做得很好,而我們也在這方面投入了大量精力。我們非常關注如何以更低的成本向所有使用者提供這些模型服務,並一直在努力降低成本。無論是 GPT-4 這樣的推理模型,還是其他模型,我們始終在推動更低成本的推理最佳化。從 GPT-4 最初發布以來,執行成本已經降低了多個數量級,我們在這方面取得了不錯的進展。隨後,當被問及當前的 Scaling Law 是否已經遇到瓶頸,或者是否觀察到擴充套件帶來的收益遞減時,Mark Chen 回答道:「我對 Scaling 有不同的理解。當涉及無監督學習時,你需要更多的關鍵要素,比如計算資源、演算法最佳化以及更多的資料。而 GPT-4.5 確實證明了我們可以繼續推進擴充套件正規化,而且這種正規化並不與推理能力相對立。推理能力需要建立在知識的基礎之上。一個模型不能憑空推理,而是需要先獲取知識,再在此基礎上發展推理能力。因此,我們認為這兩種正規化是相輔相成的,並且它們之間存在相互促進的反饋迴圈。」
實際上,GPT-4.5 不僅展示了無監督學習的巨大潛力,也預示著 AI 的發展方向——更像人。過去,AI 的發展主要集中在提高智力,比如下棋、做題、識別影像等。而現在,與兩年前 GPT-4 橫空出世時引發的轟動不同,人們對 AI 的期待已經從兩年前的「能做什麼」轉向當下「能做得更好、更安全、更可控」。越來越多的 AI 公司開始關注「情商」,試圖讓 AI 更懂人類的情感和需求。GPT-4.5 就是這一趨勢的代表,投入資源,研發更懂人心的 AI 依舊是行業值得關注的命題。