作者丨劉楊楠
編輯丨海腰
圖源丨CNBC
3月6日,開源資料庫龍頭MongoDB遭遇上市以來最黑暗的一天。
當天公佈2025財年第四季度報告和2026財年業績預告後,略顯悲觀的資料預測引得MongoDB股價暴跌近27%,估值縮水至143億美元,較195億美元的最高值跌去50億美元。
華爾街的分析師們紛紛開始下調目標價格,但評級仍保持在“買入”或“持有”狀態。分析師們之所以對MongoDB保持相對積極的態度,或許與前不久的一樁收購案有關。
2月24日,MongoDB宣佈以2.2億美元收購Voyage AI,為這家成立僅17個月的明星AI公司寫下一個暫時的句號。
Voyage AI的故事短暫又輝煌,公司2023年9月成立,由清華姚班出身的天才學者掌舵,獲“AI教母”李飛飛背書,共融資2800萬美元,其釋出的模型曾被數位AI大牛點贊。
正因如此,這筆收購讓外界猝不及防,人們不禁好奇:這樣一家技術過硬、團隊頂尖且不缺投資者關注的明星初創企業,為什麼會在成立僅17個月的時間選擇被收購?
但從MongoDB今天的處境來看,這場收購中,Voyage AI或許是更加被需要的一方。

戛然而止的天才創業故事
Voyage AI的17個月可謂轟轟烈烈。
2023年9月,斯坦福大學計算機科學家、清華大學2012屆姚班校友馬騰宇(Tengyu Ma)創辦Voyage AI,全明星陣容讓人眼前一亮。
馬騰宇自己的履歷就足夠惹眼。
2008年,馬騰宇在清華姚班畢業後,到普林斯頓大學攻讀博士學位;博士二年級獲得理論計算機方向的西蒙斯獎、IBM博士獎學金、NIPS最佳學生論文獎、COLT最佳論文獎等多種獎項;博士畢業後,馬騰宇到斯坦福擔任助理教授,也正式開始研究AI。
和馬騰宇打過交道的人無一不稱他為天才。他的博導教授曾預言,“如果他創業,未來一定會給全球科技帶來嶄新一頁”。2021年,馬騰宇拿下有“諾貝爾獎風向標”之稱的斯隆獎後,“AI教母”李飛飛不掩讚歎:“真正的天才不該埋沒在實驗室”。
於是,馬騰宇創辦了Voyage AI。
公司成立後,馬騰宇組建起了一支來自斯坦福、MIT、加州大學伯克利分校和普林斯頓大學的世界級AI研究團隊,並邀請李飛飛擔任學術顧問。
Voyage AI的殺手鐧就是透過其先進的嵌入和重排序模型,實現高精度檢索能力,從而解決AI的幻覺問題。
嵌入模型是RAG系統的核心元件之一,可將文字資料轉換為向量嵌入,以便在向量資料庫中進行高效的語義搜尋;重排序模型則在RAG系統中用於最佳化檢索結果的相關性。
嵌入模型與生成模型非常相似,依靠強大的神經網路(通常基於Transformer)架構來捕獲和壓縮語義上下文,封裝文字、圖片、音訊等背後各種概念之間的複雜關係。早期在嵌入模型中封裝越多的知識,並將其生成的資訊反饋到下一代模型的訓練中,就會使得下游的RAG、搜尋、推理系統更強大。
嵌入模型的訓練難度也很大,需要在模型架構、資料收集、函式選擇等方面多重考慮。
創業前,馬騰宇已經帶領團隊在斯坦福人工智慧實驗室和麻省理工學院NLP小組進行了5年以上的研究,收集了海量資料集、進行預處理和後處理實驗,以及開發專有方法以將對比學習應用於文字。
創業後,Voyage AI釋出還了多個系列模型,包括通用嵌入模型、程式碼檢索嵌入模型、多模態嵌入模型。過去三個月,這些模型都升級到了最新的3.0版本。
這些模型能夠從高度專業化的文字和非結構化資料(如法律文件、金融報告、企業知識庫等)中提取語義資訊,從而顯著提高AI模型的準確性和可靠性。
為了讓應用側的企業直觀感受到voyage系列模型的實力,Voyage AI決定免費為每個組織嵌入前5000個文件/查詢。
Voyage AI的工作也受到很多技術大牛的認可。
Spot AI CEO Tanuj Thapliyal就曾在Linkedin上發文表示,對馬騰宇團隊的工作成果感到很興奮。“在我們AGI的旅程中,無論上下文視窗的大小如何。嵌入模型(embeddings)和重排序器(rerankers)是組織世界上非結構化資料,並保持其有序性的最為關鍵的核心。”
種種buff疊加,也讓Voyage AI頗受資本歡迎。
2024年10月,Voyage AI宣佈完成2000萬美元A輪融資,總融資額達到2800萬美元。其中,風投公司CRV領投了本輪融資,參與者包括Snowflake、Databricks、Pear VC、Tectonic Ventures等,且CRV普通合夥人Murat Bicer也加入了Voyage AI的董事會。
Voyage AI官網部落格提到:“透過這筆投資,我們旨在擴大我們的產品範圍,並繼續為您提供最先進的非結構化資料搜尋和檢索模型。”
但就在所有人都期待Voyage AI的下一個里程碑時,突然宣佈了被MongoDB收購的訊息。

意料之外,情理之中
2月24日,開源資料庫龍頭MongoDB宣佈收購Voyage AI,估值2.2億美元。
這時距離Voyage AI A輪融資僅過了6個月,距離公司成立僅17個月。從歷史經驗來看,AI公司這麼快退出的案例並不常見。
去年,喬治城大學安全與新興技術中心在一項研究中分析了2014年至2023年的人工智慧併購事件。研究發現,大型科技平臺通常在人工智慧公司成立後平均4.8年收購它們,而其他公司收購的人工智慧公司平均成立7.4年,足以見得Voyage AI的“反常”。
Voyage AI A輪融資的領投方CRV也難掩遺憾,“對我們來說是較短的結局之一”,CRV合夥人Murat Bicer表示。畢竟業務更成熟時被收購,Voyage AI或許會得到遠高於2.2億美元的估值。
從CRV的公開表態可以感受到,他們很看好Voyage AI。
Bicer曾直言,CRV看重Voyage AI是一支非常強大的技術團隊。“目前,該領域(生成式AI領域)真正擁有數十年而非數年專業知識和經驗的人非常少,”他補充道。“當這些人在做某件事時,我們知道他們將以一種推動整個市場前進的方式進行創新。”
被收購前,CRV已經在為Voyage AI提供業務方面的輔助,幫助其組建管理團隊、制定上市戰略並更好地協調定價。
然而,Voyage AI的退出來得太快,CRV許多努力仍在早期。但儘管如此,Bicer依然將Voyage AI此次被收購描述為一個“非常圓滿的結局”。
事實上,這次收購也是情理之中。
仔細翻看Voyage AI成立時的官宣部落格會發現,公司成立之初,團隊就指出,實際應用場景中,嵌入模型效能與行業專有資料有強關聯。
具體來看,在模型訓練和效能評測環節,高質量資料集都是必備項。
MTEB(Massive Text Embedding Benchmark)是一個大規模的文字嵌入模型評估基準,能衡量文字嵌入模型在多樣化任務上的效能。它包含56個數據集,涵蓋8種任務型別,如文字分類、聚類、檢索、語義文字相似度(STS)等,並支援超過112種語言。
但部落格提出,MTEB被“過度使用”了,有人會用評測集中的資料集直接給模型做訓練,以此讓模型在評測時有更好的表現,這也一定程度上折損了MTEB的公信力。為了進行更全面的評估,Voyage AI自己構建了九個額外的資料集,且資料均來自“真實世界的行業領域 (RWID)”,涵蓋了技術文件、餐廳評論和新聞報道等多種資料。
部落格進一步寫道:“現實世界的場景總是比學術基準更具挑戰性,因為每個行業都有其獨特的術語和知識庫,就像每個企業一樣。”以Voyage AI的模型voyage-01為例,Voyage 01雖然開箱即用,但透過真實的業務資料微調,它就能以更低的成本變得更好。
Voyage AI目前還針對編碼和金融場景量身定製了嵌入模型,並正在擴充套件到更多領域。“我們還可以在小型、未標記的公司特定資料集上微調嵌入,為LangChain、OneSignal、Druva和Galpha等試點客戶實現10-20%的準確率提升。”
可見,想要嵌入模型在真實場景中有更好的準確性和相關性,很大程度需要與真實的運營資料深度整合。但對於醫療、金融等對資料安全要求極高的場景,企業通常不願將業務資料隨便提供給第三方廠商。馬騰宇也表示:“要讓AI應用充分發揮其潛力,企業必須信任其輸出,因此檢索需要與運營資料深度整合,以確保準確性和相關性。”
因此,和MongoDB等有企業大量真實業務資料的企業合作,對Voyage AI而言無疑是事半功倍的選擇。
但資料庫企業那麼多,為什麼是MongoDB?

MongoDB或許更需要Voyage AI
MongoDB可謂NoSQL資料庫中文件型資料庫的“鼻祖”。
大約從1970年起,此後二十多年一直是關係型資料庫的天下。但傳統關係型資料庫在處理高併發讀寫、海量資料儲存和非結構化資料時存在很大侷限性。
直到2007年,關係型資料庫來到轉折前夜。
當時,Dwight Merriman、Kevin Ryan、Eliot Horowitz三位工程師共同創辦10gen,初衷是打造一款面向開發者的PaaS產品,還拿到了超8000萬美元的投資。
資金就位後,三人本計劃找一個能夠支援其PaaS產品的海量資料庫。但當時成熟的資料庫基本都是基於單機架構的傳統關係型資料庫,如Oracle,MS SQLServer等。即便Oracle支援一些叢集部署,其擴充套件性也僅限於2-4臺伺服器。
於是,10gen的創始團隊決定直接自己開發一個數據儲存服務,讓所有資料都能被儲存,並提供易用的API,讓開發者可以對資料進行常見的增刪改查操作。
為便於開發者操作,Eliot決定使用JSON作為資料格式進行儲存。JSON的資料在英文被稱為“JSON Document”,“文件資料庫”的名字由此而來。
兩年後的2009年2月,10gen正式釋出開源資料庫MongoDB 1.0,首次打破了關係型資料庫的統治。
之後,10gen在資料庫的路上越走越遠。2013年8月,10gen改名為MongoDB,正式以NoSQL資料庫為主業;2014年,MongoDB收購WiredTiger儲存引擎,大幅提高MongoDB的寫入效能。
2017年10月,成立十年的MongoDB在納斯達克上市。上市後,MongoDB的市場表現也超出預期,市值最高一度達到335.6億美元。
但就在MongoDB勢頭正盛的關頭,開源、靈活的技術特色也給公司帶來不少麻煩。
2017年初,由於MongoDB資料庫在預設配置下無需使用者名稱和密碼即可訪問,使得大量駭客入侵了全球數萬個MongoDB資料庫,勒索使用者交贖金才能恢復資料。
2018年10月,MongoDB又宣佈將其開源許可證從GNU AGPLv3切換到伺服器端公共許可證(SSPL)。一石激起千層浪,許多開發者和企業使用者認為SSPL對商業使用者不夠友好,限制了軟體的自由使用和分發。Linux發行版(如Debian和Fedora)甚至拒絕使用SSPL協議下的MongoDB。
開源許可證變更後,AWS、IBM和微軟等雲服務商們又紛紛推出相容MongoDB的產品,以應對MongoDB的競爭。
不過,接連的風波並未傷及MongoDB的根本,他們仍在自己的節奏裡不斷最佳化產品。2018年6月,MongoDB推出多文件ACID強事務機制,意味著MongoDB能夠支撐更復雜的資料操作,適用於更廣泛的業務需求。
深圳鈦鉑資料創始人及CTO、MongoDB中文社群主席唐建法曾撰文總結了MongoDB的三條核心優勢:
基於JSON的資料模型最接近開發者的面向物件的設計思維; 靈活動態的模型意味著在需求多變的時候極大簡化資料庫設計流程; 自動分片、多節點自動同步和跨中心能力支援各種現代化複雜部署需求。
目前,MongoDB是全球最受歡迎的文件型資料庫,在全球100多個國家和地區擁有超過50000個客戶。因此,對於Voyage AI而言,MongoDB確實是一個理想的合作伙伴。
然而,MongoDB今天的處境卻並不樂觀。
疫情後,全球經濟開始放緩,各企業IT支出相應縮減,加以AI衝擊,MongoDB往日的差異化優勢逐漸被AI的光芒掩蓋,Atlas的新工作負載增長低於預期。
3月6日,在2026財年業績報告中,MongoDB的全年預期也不樂觀,預計全年收入在22.4億-22.8億美元之間,低於分析師預期的23.2億美元;MongoDB預計全年調整後的每股收益在2.44-2.62美元之間,遠低於分析師預期的3.34美元。業績預告發布後,MongoDB股價下跌近27%,和去年509美元的最高點也相去甚遠,估值已縮水至143億美元。
但儘管如此,收購Voyage AI對市場信心的激勵作用已經開始顯現。面對較為悲觀的全年預期,多位高評級分析師仍對MongoDB給出“買入”或“持有”的評級。
接下來,MongoDB將陸續與Voyage AI深度整合。
MongoDB CEO Dev Ittycheria在部落格中寫道,Voyage AI與MongoDB的整合將確保開發人員不再需要管理外部嵌入API、獨立向量儲存或複雜的搜尋管道。
“AI檢索將內置於資料庫本身,使語義搜尋、向量檢索和排名與傳統查詢一樣流暢,”Ittycheria解釋道。整合本身將分三個階段進行:
第一階段,Voyage AI的文字嵌入、多模態嵌入和重新排名模型將透過 Voyage AI當前的API以及AWS和Azure市場廣泛提供。
在第二階段,MongoDB將把Voyage AI的功能嵌入到MongoDB Atlas中,首先是針對Vector Search的自動嵌入服務,該服務將自動處理嵌入生成。“隨後將進行本機重新排名,允許開發人員立即提高檢索準確性。”Ittycheria寫道。
在第三階段,MongoDB將新增先進的AI檢索功能,並增強多模態能力。
“我們還計劃引入指令調整模型,讓開發人員使用簡單的提示而不是複雜的微調來最佳化搜尋行為,”Ittycheria解釋說,並補充說它將透過在 MongoDB Atlas最佳化AI應用程式時嵌入生命週期管理來進行補充。
AI這艘時代巨輪,MongoDB雖然不是上得最早的那個,卻也找到了最有經驗的船員,未來能否跑上快航道,就要交給時間決定了。
