剛剛,DeepSeek公佈了推理引擎開源路徑,OpenAI也將開始連續一週釋出

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 新智元
編輯 | Panda
今天下午,DeepSeek 默默地在自己的 open-infra-index 庫中釋出了一份題為「開源 DeepSeek 推理引擎的路徑」的文件,宣佈將開源自己的內部推理引擎(internal inference engine)並與開源社群建立更廣泛的合作。有意思的是,該文件釋出之後不久就經歷了兩次修改,對一些措辭和表述進行了更加中立和寬泛的處理。
在其中一次修改中,DeepSeek 提到了與 SGLang 和 vLLM 專案的合作關係,但這兩個具體的專案名稱在新版本中被替換成了「現有的開源專案」。修改原因是為了強調「未來的開源合作是面向整個開源社群的,不侷限於具體某些專案。」因此,DeepSeek 與 SGLang 和 vLLM 這兩大開源專案的合作關係應該是已經確定了。
不得不說,DeepSeek 非常 GOAT(Greatest of All Time)!
而就在不久前,Sam Altman 才宣佈 OpenAI 將開始一輪發布周。猶記得上一次,在 OpenAI 一連 12 個工作日的連續釋出中,o1 滿血版、Sora、強化微調技術、Canvas 更新、o3-mini 等產品和服務紛紛問世。不知道,這一次,OpenAI 又將釋出什麼東西?
事實上,各路網友已經開始根據各種草蛇灰線的線索開始猜測這一週將會發布的東西了。說實在的,有一些頗具說服力,而且還有證據。
下面我們首先將介紹「開源 DeepSeek 推理引擎的路徑」,然後將簡單盤點一番網友對 OpenAI 這周釋出內容的預測。

開源 DeepSeek 推理引擎的路徑

文件地址:https://github.com/deepseek-ai/open-infra-index/blob/main/OpenSourcing_DeepSeek_Inference_Engine/README.md
以下為 DeepSeek 釋出的文件的原文譯本:
幾周前,在開源週期間,我們開源了多個庫。社群的反響非常積極 —— 激發了鼓舞人心的合作、富有成效的討論以及寶貴的錯誤修復。受此鼓舞,我們決定更進一步:將我們的內部推理引擎回饋給開源社群
我們非常感謝開源生態系統,沒有它,我們不可能在通用人工智慧 (AGI) 方面取得進展。我們的訓練框架依賴於 PyTorch,我們的推理引擎基於 vLLM,這兩者都對加速 DeepSeek 模型的訓練和部署起到了重要作用。
鑑於部署 DeepSeek-V3 和 DeepSeek-R1 等模型的需求日益增長,我們希望盡己所能回饋社群。在我們起初考慮將完整的內部推理引擎開源時,我們發現了一些挑戰:
  • 程式碼庫差異:我們的引擎基於 vLLM 一年多前的一個早期分支。雖然結構相似,但我們針對 DeepSeek 模型對其進行了大量定製化處理,因此難以擴充套件到更廣泛的用例。
  • 基礎設施依賴:該引擎與我們的內部基礎設施(包括叢集管理工具)緊密耦合,如果不進行重大修改,就無法進行公開部署。
  • 維護頻寬有限:作為一個專注於開發更優質模型的小型研究團隊,我們缺乏維護大型開源專案的頻寬。
考慮到這些挑戰,我們決定採用一種更可持續的替代方案:與現有的開源專案合作。
展望未來,我們將在以下方面與現有的開源專案緊密合作:
  • 提取出分立的功能:將可複用的元件模組化並作為獨立的軟體庫貢獻出來。
  • 共享最佳化:直接貢獻設計改進和實現細節。
我們衷心感謝開源運動 —— 從作業系統和程式語言到機器學習框架和推理引擎。能夠為這個蓬勃發展的生態系統做出貢獻,並看到我們的模型和程式碼受到社群的廣泛歡迎,我們深感榮幸。讓我們攜手突破通用人工智慧 (AGI) 的界限,並確保其造福全人類。
注:需要說明,本文僅概述了我們開源 DeepSeek-Inference-Engine 程式碼庫的路徑。對於未來的模型釋出,我們將對開源社群和硬體合作伙伴保持開放和協作的態度。我們承諾在新模型釋出之前主動同步與推理(inference)相關的工程工作,目標是使社群能夠從第一天起就獲得 SOTA 級支援。我們的最終目標是建立一個同步的生態系統,使尖端的 AI 功能能夠在模型正式釋出後無縫地應用於各種硬體。

OpenAI 將釋出什麼?

看了 DeepSeek 振奮人心的開源路徑,再來看看 OpenAI 是否有可能給我們帶來類似的震撼。
o3、o4-mini、GPT-4.1 系列模型
對於 OpenAI 這次釋出周,目前最可信的資訊還是來自 OpenAI 自己,其已經在自家的 CDN(內容分發網路)上釋出了一些圖示,幾乎明示了即將釋出的一系列模型。從目前網友們收集到的資料看,OpenAI 這一次一共公佈了至少 5 個圖示:
但從這些圖示看,OpenAI 有可能在今晚開始的釋出週中釋出至少 5 個模型,包括 o3 滿血版與 o4-mini 兩個推理模型以及 GPT-4.1 系列模型(包括滿血版、mini 以及 nano)版。
開源模型
此外,還有人猜測 OpenAI 可能會開源一個可與 DeepSeek-R1 比肩的開源模型,而且這個模型很可能就是已經在 OpenRouter 上線且可免費使用的 Optimus Alpha。該模型支援 100 萬上下文長度,網友實測其程式設計效能非常好。
地址:https://openrouter.ai/openrouter/optimus-alpha
理由之一是如果使用者讓 Optimus Alpha 介紹自己,他會自稱是來自 OpenAI 並且基於 GPT-4 架構。
機器之心的測試
智慧體軟體工程師
OpenAI CFO Sarah Friar 近日在高盛舉辦的一次活動上透露,該公司正在開發一款名叫 Agentic Software Engineer(A-SWE)的產品,即智慧體軟體工程師 / 自主式軟體工程師。不同於程式設計助手(Copilot),A-SWE 可以自己完成構建應用、處理拉取請求、進行質量保證、修復錯誤和編寫文件等任務。
影片由 𝕏 使用者 @slow_developer 剪輯
在此之前,OpenAI 已經發布了 Operator 和 Deep Research 這兩款智慧體,分別面向計算機控制和深度研究兩個應用方向,而 A-SWE 很顯然會是一個面向程式設計任務的智慧體。
除了以上傳言,還有網友猜測 OpenAI 可能還會發佈一個新的影像生成模型,並且其效能可能勝過因吉卜力風格生成而大火的 GPT-4o。不過關於此傳言的切實資訊並不多。
你期待在 OpenAI 這次釋出週上看到什麼呢?
參考連結
https://github.com/deepseek-ai/open-infra-index/tree/main
https://x.com/sama/status/1911490401221120284
https://cdn.openai.com/API/docs/images/model-page/model-icons/gpt-4.1-mini.png
https://x.com/ImperialistsL/status/1911677033404612659

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章