姚班天才創辦的大模型公司,賣了

MLNLP

社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 量子位
作者 | 白交
最新訊息,斯隆獎得主、姚班校友馬騰宇大模型創業成果,被收購!
收購方是MongoDB,一家開源資料庫上市龍頭。
而距離他2023年11月官宣創業Voyage AI不到一年半的時間。當時創業陣容十分之矚目和豪華,李飛飛曼寧等大佬擔任顧問。
他們主要是做針對RAG(檢索增強生成)專門最佳化的嵌入模型,為智慧 AI 應用程式提供支援。
在這短短一年多時間裡,模型更新到了第三個版本,實現了最先進的檢索精度和向量儲存成本的大幅降低;期間完成了兩輪融資,總籌集金額達到2800萬美元。
此次收購,具體金額還未透露。
但在馬騰宇公司部落格中透露了他們選擇被MongoDB收購的原因。
簡單來說就是,兩者強強聯合,將AI檢索模型直接引入資料庫,在更統一的堆疊下帶來更高效的開發體驗,還能提高AI應用程式的效能和準確性。
不少業內人士,在馬騰宇推文底下表示了祝賀。

5年時間做出SOTA嵌入模型

當初創業時,他們曾透露一個重要的創業原因是認為業界對嵌入模型的重視程度遠遠不夠。
嵌入模型與生成式模型有一定相似之處,但更加側重於語義理解,透過神經網路(通常是Transformer)架構來對語義上下文進行捕獲和壓縮。
難度上,訓練嵌入模型和生成式模型一樣困難——訓練高質量的嵌入模型需要在架構、資料、損失函式等許多方面進行反覆實驗。
於是,他們用了5年時間,收集了海量訓練資料和預/後處理方法,最終打造出了一款SOTA的嵌入模型。
而在創業之後,模型的迭代還在繼續。
Voyage釋出了諸多系列模型,包括通用嵌入模型、程式碼檢索嵌入模型、多模態嵌入模型,他們都在過去三個月期間都紛紛升級到了第三個版本。
通用和多語言嵌入模型voyage-3-large:該模型在涵蓋 100 個數據集的八個評估領域中排名第一,包括法律、金融和程式碼,上下文長度為32K。透過俄羅斯套娃表徵學習(MRL)和量化感知訓練,支援更小的尺寸和 int8 和二進位制量化,可顯著降低 vectorDB 成本,同時對檢索質量的影響最小。
基於程式碼檢索的嵌入模型voyage-code-3。在一組32個程式碼檢索資料集上,它的效能分別比 OpenAI-v3-large 和 CodeSage-large 平均高出 13.80%和16.81%。透過使用 Matryoshka 學習和量化格式(如 int8 和二進位制格式)支援更小的維度,voyage-code-3 還能顯著降低儲存和搜尋成本,同時將對檢索質量的影響降至最低。
多模態嵌入模型voyage-multimodal-3,可用於包含豐富視覺和文字的文件。與現有的多模態嵌入模型不同,voyage-multimodal-3 能夠對交錯文字和影像進行向量化處理,並從 PDF、幻燈片、表格、數字等截圖中捕捉關鍵視覺特徵,從而省去了複雜的文件解析過程。在對 3 個多模態檢索任務(共 20 個數據集)進行評估時,voyage-multimodal-3 比效能僅次於它的多模態嵌入模型平均提高了 19.63% 的檢索準確率。
與此同時,還積累了一眾頂尖的合作伙伴,包括AWS、Databricks、Anthropic、Harvry、LangChain、Replit等等知名公司。
此次收購之後,Voyage AI可以MongDB帶來什麼?
用一張圖就可以概括之。
以往開發人員需要依靠各種獨立元件來構建AI應用程式,這些元件的次優選擇(例如嵌入模型)可能導致資料檢索相關性低和生成輸出質量低下。這種分散的方法對開發人員來說既複雜又昂貴,效率低下,而且繁瑣。
現在,他們無需實施變通方法或管理單獨的系統,而是可以從即時操作資料中生成高質量的嵌入、儲存向量、執行語義搜尋並最佳化結果 – 所有這些都在 MongoDB 中完成。
對於此次收購,MongDB CEO表示:
AI有潛力改變每個行業,但其應用因“幻覺”可能帶來的風險而受到限制。透過將先進的AI驅動搜尋和檢索能力整合至我們高度靈活的資料庫系統中,MongoDB和Voyage AI將幫助企業輕鬆構建能夠創造重大業務影響的可靠AI應用。透過此次收購,MongoDB重新定義了AI時代的資料庫。
馬騰宇則表示:要使AI應用程式發揮全部潛能,企業必須信任其輸出結果,因此需要將檢索與操作資料深度整合,以確保其準確性和相關性。加入MongoDB使我們能夠將前沿的AI檢索技術帶給更廣泛的受眾,並將其無縫整合到關鍵任務應用中。透過將我們在嵌入和重排序方面的專業知識與MongoDB一流的資料庫相結合,我們可以幫助組織構建能夠大規模提供更準確、更可靠結果的AI應用,使他們能夠自信地將AI應用於高風險用例。

清華姚班校友,和陳丹琦同學

馬騰宇,現任斯坦福大學助理教授,研究方向包括機器學習、演算法及其理論等多項內容。
其學生都分佈在各個頂尖大廠和機構從事科研探索。
他本科畢業於清華姚班,和陳丹琦是同班同學。隨後去到普林斯頓攻讀博士學位導師是理論計算機科學家、兩屆哥德爾獎得主Sanjeev Arora教授。
讀博期間,馬騰宇獲得了理論計算機方向的西蒙斯獎等諸多獎項,被導師誇讚“比自己還聰明”。
博士畢業後,MIT、哈佛、斯坦福等頂尖高校都給了他助理教授的Offer,馬騰宇最終選擇了斯坦福。
2021年,馬騰宇獲得了具有“諾獎風向標”之稱的斯隆獎,成為繼鬲融之後清華姚班又一名獲此獎項的校友。
時間來到2023年11月,他官宣創業Voyage。不過創業期間,他始終還在斯坦福進行一些前沿探索。
比如他與Google Brain推理團隊建立者Denny Zhou聯手證明,只要思維鏈足夠長,Transformer就可以解決任何問題。透過數學方法,他們證明了Transformer有能力模擬任意多項式大小的數位電路,論文已入選ICLR 2024。
而就在月初,他還提出了STP, 一種可以無限猜測和證明的自玩演算法,從而實現在有限的資料情況下不斷地改進模型。當時他的單位是斯坦福。
至於公司被收購後的下一步產業動向,馬騰宇還沒有透露。或許接下來還可以期待更多學術成果~

參考連結:

[1]https://ai.stanford.edu/~tengyuma/

[2]https://blog.voyageai.com/2025/02/24/joining-mongodb/

[3]https://www.mongodb.com/blog/post/redefining-database-ai-why-mongodb-acquired-voyage-ai

[4]https://x.com/dittycheria/status/1894026445606826095

[5]https://x.com/VoyageAI

[6]https://x.com/tengyuma/status/1894029783245451572

技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章