就在剛剛,OpenAI 去年大熱的神秘專案「Q*」再次有了新動態。
據外媒路透社報道,OpenAI 內部正在一個代號為「草莓(Strawberry)」的專案中開發一種新的人工智慧模型。
該模型細節此前從未被報道過,而 OpenAI 正在努力證明該模型型別能夠提供高階推理能力。
根據路透社五月份所看到的一份 OpenAI 內部檔案副本,OpenAI 內部團隊正在開發「草莓」。不過路透社無法確定這份檔案的確切日期。
該檔案詳細介紹了 OpenAI 打算如何使用草莓進行研究的計劃。即使在 OpenAI 內部,「草莓」的工作原理也是嚴格保密的。
報道稱,「草莓」模型的目的不僅是讓公司的人工智慧支援答案查詢,還能提前規劃,以便自主、可靠地瀏覽網際網路,以執行 OpenAI 所稱的「深度研究」。
根據對十多名人工智慧研究人員的採訪,這也是迄今為止人工智慧無法解決的問題。
當路透社向 OpenAI 方求證「草莓」等細節時,OpenAI 公司發言人並沒有直接回答有關「草莓」的問題,而是含糊其辭地回應道:
我們希望我們的人工智慧模型能像我們一樣看待和理解這個世界。
不斷研究新的人工智慧能力是業界的普遍做法,我們都相信這些系統的推理能力會隨著時間的推移而不斷提高。
值得注意的是,還記得去年報道的 Q* 嗎?
去年有媒體曝出,OpenAI CEO Sam Altman 沒有及時向董事會披露
Q* 的進展,這也被視為引發 OpenAI「宮斗大戲」的重要導火索。
當時,OpenAI 的內部人士還擔心,Q* 的重大突破或將威脅全人類。
而路透社報道稱,Q* 正是「草莓」的前身,在去年的報道中, Q* 更是被視為一項重要突破。
兩位訊息人士透露,今年早些時候,OpenAI 向他們展示了 Q*,能夠回答當今市面上模型無法觸及的棘手科學和數學難題。
包括近日彭博社也報道,在本週二的一次內部全體會議上,OpenAI 展示了一個研究專案的演示,聲稱該專案具有類似人類的新推理能力。
OpenAI 發言人證實了這次會議,但拒絕透露內容細節,所以路透社也無法確定所展示的專案是否是「草莓」。
不過,也正是在這場會議上,OpenAI 提出了一套支援「自定義」AI 進化等級的分類系統。
該分級系統被劃分為從能夠與人類進行基本對話的人工智慧(Level 1)開始,一直到能夠獨立完成組織任務的高階人工智慧(Level 5)。
第一級(Level 1):聊天機器人,具有對話語言能力的 AI
第二級(Level 2):推理者,能解決人類級別問題的 AI
第三級(Level 3):代理,能採取行動的 AI 系統
第四級(Level 4):創新者,能輔助發明的 AI
第五級(Level 5):組織者,可以完成組織工作的 AI
OpenAI 內部認為自己處於第一級,但即將邁入第二級「推理者」,即能夠解決基本問題任務的系統,類似於擁有像博士學位但沒有工具的人類。
路透社採訪的研究人員表示,推理是人工智慧實現人類或超人類水平智慧的關鍵。
雖然大型語言模型已經可以比人類更快地概括長文字和撰寫優雅的散文,但這種技術難以應付常識性問題,因為這些問題的解決方案在人們看來是直觀的,比如識別邏輯謬誤和玩井字遊戲。當模型遇到這類問題時,經常會出現「幻覺」。
接受路透社採訪的人工智慧研究人員普遍認為,就人工智慧而言,推理是指形成一個模型,使人工智慧能夠提前規劃,反映物理世界的運作方式,並可靠地解決具有挑戰性的多步驟問題。
提高人工智慧模型的推理能力被認為是解鎖模型能力的關鍵,使其能夠完成從重大科學發現到規劃和構建新軟體應用程式的所有工作。
OpenAI CEO Sam Altman 今年早些時候說過,在人工智慧方面,「最重要的進步將圍繞推理能力展開。」
Google、Meta 和微軟等其他公司也在嘗試使用不同的技術來改進人工智慧模型的推理能力,大多數進行人工智慧研究的學術實驗室也是如此。
然而,對於大型語言模型(LLM)是否能夠將想法和長期規劃納入其預測方式,研究人員的看法卻不盡相同。
例如,圖靈獎得主、Meta 首席科學家 Yann LeCun 就認為,大型語言模型不具備像人類一樣的推理能力。
知情人士表示,「草莓」專案是 OpenAI 克服這些挑戰計劃的關鍵組成部分。路透社看到的這份檔案描述了「草莓」想要實現的目標,但沒有說明如何實現。
近幾個月來,OpenAI 一直在私下向開發者和其他外部各方發出訊號,稱其即將釋出具有更先進推理能力的技術。
訊息人士稱,「草莓」在訓練過程中使用了後訓練(post-training)方法,即在對大量通用資料進行訓練後,調整基礎模型以特定方式最佳化其效能。
開發模型的後訓練階段涉及微調等方法,這是當今幾乎所有語言模型都必經的一個過程,它有多種形式,比如讓人類根據模型的響應向模型提供反饋,併為模型提供好答案和壞答案樣例。
一位知情人士還透露,「草莓」與斯坦福大學 2022 年開發的一種名為 STaR(Self-Taught Reasoner)的方法有相似之處。
而 STaR 的作者之一、斯坦福大學教授 Noah Goodman 告訴路透社,STaR 方法使 AI 模型能夠透過迭代建立自己的訓練資料將自己「引導」到更高的智慧水平,理論上可以用來讓語言模型超越人類水平的智慧。
我認為這既令人興奮又令人恐懼……如果事情繼續朝著這個方向發展,我們作為人類就要認真思考一些問題了。
那份 OpenAI 的內部檔案還透露,「草莓」瞄準的功能之一是執行長期任務 (LHT,long-horizon tasks),指的是需要模型提前規劃並在較長時間內執行一系列操作的複雜任務。
為此,OpenAI 正在名為「deep-research」的資料集建立、訓練和評估模型。不過路透社無法確定該資料集中包含哪些內容,也無法確定長期任務意味著什麼。
報道稱,OpenAI 希望其模型能夠透過一個名為「CUA」(計算機使用代理)的輔助工具自主地進行網路研究。此外,OpenAI 還計劃測試其模型是否能勝任軟體和機器學習工程師的工作。
附上報道原文:https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/