關於OpenAIo1全新模型的10大事實:哪些領域比博士強,哪些地方像小學生?

被大肆宣傳、暗示已久的“Strawberry模型”終於露出了真身,然而我其實會有些失望——依據目前透露的資訊看,GPT-5可能還遙遙無期。
OpenAI 釋出了一款名為 o1 的新模型,這是未來系列“推理”模型中的第一個。
這些模型經過訓練可以回答更復雜的問題,速度比人類更快。對於 OpenAI 來說,o1 代表著它朝著「類人人工智慧」的進階目標邁出了一步。
更實際的是,它在「編寫程式碼」和「解決多步驟問題」方面比以前的模型做得更好。
但它也比GPT-4o更昂貴、使用速度更慢。OpenAI 稱 o1 的這個版本為“預覽版”,以強調它還處於起步階段。

ChatGPT Plus 和 Team 使用者,從今天開始可以訪問 o1-preview 和 o1-mini,而 Enterprise 和 Edu 使用者將於下週初獲得訪問許可權。
OpenAI 表示,它計劃向 ChatGPT 的所有免費使用者提供 o1-mini 訪問許可權,但尚未確定釋出日期。 
開發人員訪問 o1 非常昂貴:在 API 中,o1-preview 每 100 萬個輸入令牌或模型解析的文字塊收費 15 美元,每 100 萬個輸出令牌收費 60 美元。
相比之下,GPT-4o 每 100 萬個輸入令牌收費 5 美元,每 100 萬個輸出令牌收費 15 美元。
OpenAI 的研究負責人 Jerry Tworek 說,o1 背後的訓練與之前的版本有著根本的不同,儘管該公司沒有透露具體細節。他說 o1“使用了一種全新的最佳化演算法和專門為其量身定製的新訓練資料集進行了訓練。”

👇以下是有關 OpenAI o1 模型的 10 個基本事實的細分:
1. 兩種型號
o1-Preview 和 o1-MiniOpenAI 釋出了兩個版本:o1-preview 和 o1-mini。
o1-preview 模型在複雜任務中表現出色,而 o1-mini 則提供了更快、更具成本效益的解決方案,針對 STEM 領域(尤其是編碼和數學)進行了最佳化。為您提供更多
2. 高階「思維鏈」推理
o1 模型採用了一種思維鏈式過程,允許它們在做出反應之前逐步推理。
這種深思熟慮的方法提高了準確性,並有助於處理需要多步推理的複雜問題,使其優於 GPT-4 等先前的模型。
「思路鏈提示」透過將複雜問題分解為連續步驟來增強 AI 的推理能力,從而提高模型的邏輯和計算能力。
OpenAI 的 GPT-o1 模型透過將流程嵌入其架構中來推進這一過程,模仿人類解決問題。
這使得 GPT-o1 在競爭性程式設計、數學和科學方面表現出色,同時也提高了透明度,因為使用者可以遵循模型的推理,標誌著類人 AI 推理的飛躍。
這種高階推理能力使得模型需要花費一些時間才能做出響應,與 GPT-4 系列模型相比,這可能顯得比較慢。

3. 增強的安全功能
OpenAI 在 o1 模型中嵌入了先進的安全機制。這些模型在禁止內容評估中表現出色,具有很強的防越獄能力,使其在敏感用例中部署時更加安全。
越獄評估OpenAI越獄 AI 模型涉及繞過安全措施以引發有害或不道德的輸出。隨著 AI 系統變得越來越複雜,與越獄相關的安全風險也在增加。
OpenAI 的 o1 模型(尤其是 o1-preview 變體)表現出對此類攻擊的更強抵禦能力,在安全測試中得分更高。這種增強的抵抗力歸功於該模型的先進推理能力,這有助於它更好地遵守道德準則,使惡意使用者更難操縱。

4. STEM 基準測試表現提升
o1 模型在各種學術基準測試中名列前茅。
例如,o1 在Codeforces (一項程式設計競賽)中排名第 89 位,並在美國數學奧林匹克資格賽中名列前 500 名。

5. 卓越的幻覺緩解效果
大型語言模型中的幻覺是指產生錯誤或不受支援的資訊。OpenAI 的 o1 模型使用高階推理和思路鏈過程解決了這個問題,使其能夠逐步思考問題。幻覺評估OpenAI與之前的模型相比,o1 模型降低了幻覺發生率。
對 SimpleQA 和 BirthdayFacts 等資料集的評估表明,o1-preview 在提供事實、準確的響應方面優於 GPT-4,從而降低了虛假資訊的風險。

6. 在不同的資料集上進行訓練
o1 模型是在公共、專有和自定義資料集上進行訓練的,因此它們既精通常識,又精通特定領域的主題。這種多樣性使其具有強大的對話和推理能力。
7. 價格實惠且成本高效
OpenAI 的 o1-mini 模型提供了 o1-preview 的經濟實惠的替代方案,價格便宜 80%,同時仍在數學和編碼等 STEM 領域提供出色的效能。o1-mini 模型專為需要以較低成本實現高精度的開發人員量身定製,非常適合預算受限的應用。這種定價策略確保了更廣泛地使用高階 AI,尤其是對於教育機構、初創企業和小型企業而言。
8. 安全工作和外部紅隊
在 LLM 中,“紅隊測試”是指透過模擬其他人的攻擊或以可能導致模型做出有害、有偏見或非預期行為的方式提示模型,對 AI 系統進行嚴格測試。
這對於在模型大規模部署之前識別內容安全、錯誤資訊和道德界限等領域的漏洞至關重要。
紅隊測試透過使用外部測試人員和不同的測試場景,幫助使 LLM 更安全、更強大並符合道德標準。這確保模型能夠經受住越獄或以其他方式操縱它們的嘗試。
在部署之前,o1 模型經過了嚴格的安全評估,包括外部紅隊和準備框架評估。這些努力有助於確保模型符合 OpenAI 的高安全性和一致性標準。

9. 提高公平性和減少偏見
o1-preview 模型在減少刻板反應方面的表現優於 GPT-4。它在公平性評估中更頻繁地選擇正確答案,同時在處理模稜兩可的問題方面表現出進步。
10. 思維鏈監控和欺騙檢測
OpenAI 已實施實驗技術來監控 o1 模型中的思路鏈,當模型故意提供不正確的資訊時,可檢測出欺騙行為。
初步結果顯示,該技術在降低模型生成的錯誤資訊的潛在風險方面具有良好的潛力。OpenAI 的 o1 模型代表了 AI 推理和解決問題方面的重大進步,尤其是在數學、編碼和科學推理等 STEM 領域表現出色。
隨著高效能 o1-preview 和經濟高效的 o1-mini 的推出,這些模型針對一系列複雜任務進行了最佳化,同時透過廣泛的紅隊測試確保了更高的安全性和道德合規性。

OpenAI 表示,這個新模型與 GPT-4o 的主要區別在於,它能夠比前輩更好地解決編碼和數學等複雜問題,同時還能解釋其推理。
由於採用了「強化學習+思維鏈」這種新的訓練方法,該模型應該會更加準確。“我們注意到這個模型的幻覺減少了,”Tworek 說。但問題仍然存在。“我們不能說我們解決了幻覺問題。”
OpenAI 首席研究官 Bob McGrew 說:“該模型在解決 AP 數學測試方面肯定比我做得更好,而我在大學時輔修了數學。”

他說,OpenAI 還用國際數學奧林匹克資格考試對 o1 進行了測試,雖然 GPT-4o 只正確解決了 13% 的問題,但 o1 的得分為 83%。
在被稱為 Codeforces 競賽的線上程式設計競賽中,這個新模型達到了參與者的第 89 個百分位,OpenAI 聲稱該模型的下一次更新將“在物理、化學和生物學領域具有挑戰性的基準任務上表現得與博士生相似”。

與此同時,o1 在很多領域的能力不如 GPT-4o。
它在關於世界的事實知識方面表現不佳。它也沒有瀏覽網頁或處理檔案和影像的能力。不過,該公司認為它代表了一種全新的能力。它被命名為 o1,表示“將計數器重置為 1”。
“說實話,我認為我們傳統上在命名方面很糟糕,”麥格魯說。“所以我希望這是更新、更理智的名字的第一步,可以更好地向世界傳達我們正在做的事情。”

這裡有一個有趣的問題例子:

“當公主的年齡是王子的兩倍,而公主的年齡是他們現在年齡的一半時,公主的年齡將與王子一樣大。王子和公主的年齡是多少?請提供該問題的所有答案。”
該模型緩衝了 30 秒,然後給出了正確答案。OpenAI 設計了介面來展示模型思考時的推理步驟。
令我印象深刻的不是它展示了自己的工作成果(GPT-4o 可以在提示下做到這一點),而是它似乎有意模仿人類思維。“我很好奇”、“我正在思考”和“好的,讓我看看”等短語營造出一種一步一步思考的幻覺。
但這個模型並沒有思考,當然也不是人類。那麼,為什麼要把它設計得看起來像是人類呢?

諸如“我很好奇”,“我正在思考”,“好的,讓我看看”等短語創造了一種逐步思考的幻覺。

Tworek 表示,OpenAI 並不認為人工智慧模型思維等同於人類思維。但他表示,介面旨在展示模型如何花費更多時間處理問題並深入解決問題。“與之前的模型相比,它在某些方面感覺更人性化。”
“我認為你會發現,在很多方面,它都給人一種外星人的感覺,但也有很多方面,它讓人感覺非常人性化,”McGrew 說。
該模型被賦予了有限的時間來處理查詢,因此它可能會說這樣的話:“哦,我的時間不多了,讓我快點找到答案。”
在早期,在它的思維鏈中,它也可能看起來像是在集思廣益,並說這樣的話:“我可以做這個或那個,我應該怎麼做?”

以 ChatGPT 為例,它往往會錯誤地聲稱“strawberry”這個詞只有兩個 R,因為它沒有正確地分解這個詞。值得一提的是,新的 o1 模型確實正確回答了該查詢。

據報道,OpenAI 希望以驚人的 1500 億美元估值籌集更多資金,其發展勢頭取決於更多的研究突破。該公司正在為 LLM 帶來推理能力,因為它看到了未來自主系統或代理能夠代表您做出決策並採取行動的前景。
對於AI研究人員來說,破解推理是邁向人類智慧的重要一步。
他們認為,如果一個模型的能力不僅限於模式識別,那麼它就可以在醫學和工程等領域取得突破。不過,目前,o1 的推理能力相對較慢,不像Agent,而且開發人員使用起來成本高昂。
最近我正在梳理ChatGPT自發布以來的歷次重大更新,以歷史為線索,透過這些更新,希望帶給大家一些對未來的判斷……
謝謝你看到這裡!!

參考閱讀:
新鮮真話,關注一下👆
朋友圈會發一些具體的案例和商業化日常~ 
AI交流,歡迎加我本人微信:FrankGPTs

相關文章