
在國產獨立資料庫廠商中,OceanBase 是一個獨特的存在,他們入局雖晚,但進展迅速,並且有著非常鮮明的“性格特徵”。
一個具體表現是,近年來 OceanBase 反覆強調“分散式一體化”與“多雲原生部署”能力,這並非堆砌技術概念,而是客戶需求已經給出明確指引。
大模型火爆前,在數字化轉型逐漸深入的大背景下,企業對於資料庫的需求也越來越高。
很多企業要求資料庫既要快又要穩,要能輕鬆搞定海量資料,同時處理超多請求(比如“雙 11”搶購秒殺),忙時自動擴容,閒時自動縮水,萬一出現 bug 也要迅速恢復,保障業務不中斷。傳統的集中式單機資料庫顯然無法同時滿足這些需求,和某家雲廠商繫結的模式,也可能使得整個系統受制於雲廠商的穩定性。因此,分散式一體化和多雲原生部署成為自然選擇。
而大模型出現後,在這些需求之上,企業又衍生出大量新的資料需求。例如要高效儲存和查詢海量的向量資料,要能和 AI/ML 等工具完美對接,還要能快速處理即時資料;同時,對非結構化資料的管理以及利用 AI 進行智慧運維的需求也越來越明顯,這些需求都在推動資料庫技術開啟一輪新變革。
在此背景下,延續此前緊跟客戶實際需求的行事風格,最近兩個月,OceanBase 在 AI 佈局上動作頻頻——先是在 4 月釋出全員信,宣佈全面擁抱 AI;僅一個月後,在開發者大會上推出 PowerRAG 以及一系列向量化能力。
就在 6 月 24 日,OceanBase 又迎來了 AI 新進展:雲資料庫業務 OB Cloud 實現 AI 能力的開發部署,並與 LlamaIndex、LangChain、Dify 等 AI 生態開放平臺深度整合。這一 AI 能力已在零售、金融、物流等行業的數十家頭部企業落地驗證。
是什麼支撐了 OB Cloud 如此快速的行動?其 AI 戰略的底層邏輯是什麼?在 AI 重塑資料世界的當下,OB Cloud 又將如何定位自身?
圍繞這些問題,InfoQ 採訪了 OceanBase 副總裁、公有云事業部總經理尹博學,他明確表示,“雲資料與 AI 天然契合,正是這種契合促使 OB Cloud 率先從儲存工具向智慧引擎進化”。

OceanBase 副總裁、公有云事業部總經理尹博學
同時,他解釋了 OB Cloud 佈局 AI 的底層邏輯,也回應了關於多雲原生部署的思考。OB Cloud 可以在任何一朵雲上實現互聯互通,將企業在不同雲之間的資料無縫連線,並提供跨雲容災與分鐘級故障切換,“這是其他雲廠商所做不到的,只有中間的軟體企業、軟體服務商,才有可能真正把資料連起來”。
此外,尹博學還從資料庫廠商的視角,給企業落地 AI 應用提了幾點建議。他認為,企業 AI 落地可分三步走:從高價值、短路徑的小場景試點,逐步擴充套件到構建包含 Agent、RAG 和一體化資料庫的大平臺,最終實現業務與 IT 的雙輪驅動。
關於 AI 和雲資料庫融合的未來,尹博學則堅信,“把資料的處理、加工和計算統一化是最高效的方式”,將多種 AI 能力深度集成於資料庫內部,為客戶提供更簡潔、強大的選擇是終極方向。
更多與尹博學的對話內容整理如下,InfoQ 在不改變原意的情況下稍加整理。
InfoQ:AI 的爆發給企業帶來了全新的資料處理正規化。從您的觀察來看,企業在資料服務方面有哪些新需求?
尹博學:AI 特別是大模型的應用,對資料服務提出了三大新要求。首先,為消除幻覺,需要多層次檢索能力,包括向量檢索、標量查詢、模糊化查詢、全文檢索等。
其次,資料庫要處理的資料型別更豐富、資料量也更龐大。IDC 資料顯示,到 2025 年,非結構化資料將佔已知資料的 90% 以上。大模型能將這些資料轉化為向量,使其可被資料庫處理。更復雜的是,這一過程又會產生大量新的結構化和半結構化資料。
最後,服務的可獲得性至關重要。AI 應用通常部署在雲端以獲取便捷性和彈性,因此將資料服務置於雲上,確保其高可用和易得性成為客戶首選。
InfoQ:這些新需求給資料庫廠商帶來了哪些技術挑戰?
尹博學: 首先是資料治理與架構適配。企業現有技術多針對結構化資料,但 AI 時代湧現大量非結構化資料。處理這些資料需要不同技術棧(例如向量、文字、關係型等),對企業而言是巨大的管理難題。更何況企業還需在同一技術棧內兼顧即時性與一致性。
其次是成本與效能平衡。大量非結構化資料向量化後,儲存成本激增。很多向量查詢又要求即時響應,在海量儲存與即時查詢間尋找平衡點非常困難。
最後是安全與合規問題。如何在私有云和公有云統一技術棧,並確保相關技術的跨環境合規性,是企業普遍關切的難題。
InfoQ:要解決這些問題,目前已有的基座模型能力夠用嗎?ChatGPT 出現至今,企業對資料庫需求的變化催生了哪些技術突破?
尹博學: 通用場景下大模型表現尚可,但專業領域必須依靠本地化知識輔助推理。這種情況下,模型獲取知識的通道越豐富、高效,推理結果才會越準確、越契合業務需求。
其實向量能力與 RAG 技術就是為此而生的。
但這也並非新技術,大模型的落地需求也在倒逼著向量與 RAG 的技術突破。以向量能力為例,大模型從向量資料庫中檢索到大量資訊後,這些資訊往往是零散且繁雜的,還需要進一步總結再呈現給使用者,這就需要有新技術來解決。
目前,已經有一些新的學術成果進入生產落地環節,例如 RabitQ 已落地生產,並應用於 OB Cloud 產品中。
從資料量角度看,企業客戶目前的需求主要基於文字,小規模業務文字向量規模達數百萬或千萬。但也有業務涉及大量非結構化資料處理,一些客戶有十億、百億文字向量處理需求。
非結構化資料處理目前處於前期階段,過去主要處理文字。今年大模型向多模態發展,未來圖片等非結構化資料將比文字更多,且多由裝置產生。這些圖片產生向量,大規模應用於圖片搜尋和處理領域,如攜程酒店業務的向量數已近十億,還有業務處理圖片向量達百億,未來向量規模將更大。
InfoQ:從 4 月釋出全員信,到向量和 PowerRAG 在雲資料庫上的快速部署,OceanBase 的行動速度很快。這背後有什麼驅動力,為何選擇從雲資料庫切入 AI 賽道?
尹博學: 這種速度源於兩方面:客戶 AI 需求的敏銳觀察和我們自身的 AI 應用需求。
客戶最終訴求是場景落地。我們希望修通“中介軟體”這條路,幫助客戶快速將自身知識與大模型結合,實現應用落地。無論是向量能力還是 RAG,都是為了讓客戶能有效利用大模型。我們的目標是讓這條路更短、更高效、更經濟,使落地過程更順暢。
同時,作為軟體公司,我們自身也在擁抱 AI,用於最佳化程式碼開發、大規模叢集運維等。這些內部實踐也反哺了我們的客戶服務能力。
AI 發展離不開算力和資料,雲平臺在解決這兩個問題上有天然優勢,能讓 AI 服務更易獲得,這已成行業共識。既然客戶更多在雲上使用 AI,我們作為連線模型與應用的”修路者”,自然也應在雲上發力,以更快地與客戶構建橋樑。
InfoQ:為什麼優先發展向量能力?OceanBase 強調的“一體化”在融合向量能力的過程中如何體現?
尹博學: 構建企業知識庫或與大模型結合的推理工具,向量能力是最貼近資料的環節。無論是分詞、Embedding 還是標量資料向量化,都是必不可少的。
而只提供向量資料庫,和把向量化演算法、能力打包做整體解決方案,帶來的使用者體驗完全不同。
我們傾向於後者,將 AI 落地所需的一系列中介軟體打包到雲資料庫中,形成一體化解決方案,在雲上提供給客戶,這樣能讓場景產生的資料最快釋放其價值。
另外,我們認為長期來看,單獨的向量資料庫可能難以支撐企業需求,因為實際業務場景中,只用向量服務推理難以解決問題,還是需要融合標量計算,而向量資料庫廠商積累標量服務經驗的視窗期已經過了。目前客戶多分開使用標量和向量手段,這在可維護性、成本和穩定性上非最優,只是短期方案。
長期來看,客戶需要的是開箱即用、將 AI 能力整合、多模向量一體化的融合方案。
InfoQ:將非結構化資料向量化,並在此基礎上打造 RAG 這件事,很多企業都在做,你們的差異化優勢是什麼?
尹博學: 基於我們的多模一體化能力,企業無需引入額外元件,就能在 OB Cloud 上體驗向量資料、空間資料、文件資料、標量資料、全文檢索等混合檢索能力。
同時,我們引入 BQ 量化演算法,大幅降低向量場景的記憶體需求。根據測試結果,在同等召回率與效能的情況下,引入該演算法(HNSW+BQ)能夠實現記憶體成本較 HNSW 降低 95%。在記憶體降本的同時,還能為使用者帶來更好的向量效能。測試結果顯示,在同等成本、同等召回率的情況下,OceanBase 效能超 Elasticsearch 9.0 BBQ 16%。
更重要的是,OceanBase 的向量演算法 100% 自研,不依賴開源庫,這讓我們對演算法有更強的掌控力,能夠基於豐富的內部場景進行創新,並深度結合資料庫核心解決業界難題。
具體到 PowerRAG 這個產品上,其差異化在於“一站式”和“精細化處理”。
過往,搭建 RAG 應用過程步驟複雜、流程繁瑣。如果採用常規的多元件開發模式,不僅需要關注關係資料庫、向量資料庫、Embedding 模型、大語言模型等工具和元件的選型,還需要解決文字解析、文字分片、流程編排等問題,而採用 RAG 平臺模式進行開發,雖然在一定程度上簡化了 RAG 平臺層的工作,但仍面臨應用開發平臺選型、向量和文字等資料庫選型,及後續多個工具整合的問題。
此外,在處理使用者上傳的文件時,我們也摒棄了業界常見的“一刀切”的解析方式,而是基於不同的內容形態,用更契合的方式做差異化解析。例如,表格資料按行列或鍵值對處理;圖片中的文字透過 OCR 提取,不同元素處理後統一為純文字向量化。這種解析方法能顯著提升檢索準確率。
InfoQ:現在你們這些能力能夠在真實業務場景落地應用嗎?
尹博學: 是的。目前,我們已把 PowerRAG 應用在我們自己的官網 AI 助手和資料庫 AI 診斷功能上。AI 助手能準確回答專業問題,甚至總結多篇文章;AI 診斷能一鍵分析資料庫狀態,給出專業建議。
除了內部場景之外,例如在零售業的智慧營銷場景裡。銷售人員需掌握大量產品知識,透過 RAG 結合企業知識庫,一線人員能快速準確回答客戶問題,所有回答都有據可循,提升專業性和效率。這裡的難點是產品說明高度相似,問題隨意且可能包含多個子問題。我們能拆分問題、快速定位文件、透過向量召回及時響應,並有一套反饋機制可以持續最佳化效能。
OB Cloud 的向量能力也已服務於零售、跨境電商、網際網路服務、物流運輸、智慧裝置、教育等眾多行業的數十家頭部企業,包括伯俊在內,還有 in 銀泰商業、卡佩希、攜程、中國聯通軟研院、三維家、慧視通等,都基於 OBCloud 率先實現了 AI 應用從 0 到 1 的關鍵性落地。
InfoQ:在這些場景落地過程中,OceanBase 如何保證企業的資料安全?畢竟 AI 在企業大規模應用會呼叫更多企業資料,使其暴露在更不確定性的環境中。
尹博學: 向量能力是 OB Cloud 多模特性的一部分,也是 OceanBase 整體 all-in-one 解決方案的一部分。目前它的安全能力是依託於 OceanBase 核心,包括 OB Cloud 上的安全特性。舉個例子,有客戶使用開源向量資料庫做安全底座,發現不同部門能訪問相同資料。換用 OceanBase 後,我們透過多租戶能力,將不同業務板塊資料隔離開,避免了未授權訪問。OceanBase 作為完全自研的一體化資料庫,已透過嚴格安全認證,能全方位解決企業安全問題。
OceanBase 資料庫的某個版本後,就會自帶向量功能,而不是單獨售賣向量資料庫。商業化方面,目前最成熟的是資料庫本身,未來也會考慮中介軟體的商業化。我們還在探索具體的商業化模式,包括定製化、通用化或 SaaS 化服務。
InfoQ:能否從資料庫廠商的視角,給企業一個落地 AI 的思路?
尹博學:我們建議企業落地 AI 可以分三個階段:
首先,企業可以從知識庫等小切口場景入手,選擇價值鏈高且路徑短的場景,直接使用像 PowerRAG 這樣的產品來搭建,可以快速嚐鮮 AI 能力。
在初步嘗試後,企業可以開始從下到上逐步擴充套件。由於業務團隊可能不太懂 IT,而 AI 和 IT 團隊可能不太懂業務,我們建議組織類似設計思維(design thinking)的工作坊,拉上業務團隊一起找到相關的 ID 場景,完成小規模構建,並將需求反饋給團隊,逐步構建出最終的 AI 應用。
最終,企業需要一個包含 Agent、RAG 和一體化資料庫的大平臺,提供給更多業務人員或輕 IT 人員,以快速開發 AI 創新。這一步的目標是實現業務和 IT 的雙輪驅動,從 AI 使能邁向 AI 原生。
InfoQ:接下來我們聊聊未來。在向量能力、RAG 服務之後,你們未來計劃整合哪些更深層次的 AI 功能?哪些是你們堅定要做的,哪些交給生態廠商來做?
尹博學: 我們的核心思路是打通從資料到 AI 應用落地的整條路徑。路徑上所有必要工具,如果開源元件不能很好服務客戶,我們都可能自己做或與生態廠商合作。
這與雲廠商定位類似。雲廠商專注於基座模型和算力叢集,我們則聚焦於模型和應用中間的那一段——從資料到應用的中介軟體。垂類應用的場景理解和落地,是各領域專業 ISV 夥伴的長項,如零售中臺、品牌營銷等。OceanBase 的優勢在於提供高效中介軟體能力,幫助我們的生態合作伙伴將專業知識呈現給使用者,可以理解為不同層次的分工。
未來,我們會將更多有價值的工具,如 Embedding 演算法、分詞能力等都納入輸出範圍。我們有信心做得比開源更好。
InfoQ: OceanBase 未來會推出 GPU 最佳化版本嗎?
尹博學: 現在我們優先支援英特爾和 ARM 架構 CPU,因為我們本身業務應用也更廣泛;GPU 最佳化主要聚焦向量索引場景,比如批次構建索引時用 GPU 加速,應對未來高併發需求。現階段 GPU 優先順序低於 CPU,因為向量查詢的併發量尚未完全釋放 GPU 潛力。
其實除了支援 GPU 部署,在提升算力效率上,我們也在透過一些快取技術為企業減負:
在推理加速層,我們會在推理引擎上層構建快取(如 KV Cache),直接複用重複問題的結果,例如 ChatGPT 發現相同 Token 時會跳過重複計算,減少大模型呼叫次數;在訓練最佳化層,我們也嘗試在訓練框架中建立一些快取機制,降低顯示卡消耗。這些技術已在 OBCloud 中有相應的落地實踐,近期將有客戶案例公佈。
InfoQ:展望未來 1-3 年,AI 與雲資料庫的融合會呈現哪些主要趨勢?
尹博學: 我認為有三大趨勢:
首先是深度一體化。這是我們堅信不疑的,市場需求也印證了這點。資料的處理、加工、計算,從統一角度看效率最高。
其次是資料互聯互通。實現多雲、多 Agent、多底座間的資料流通,打破企業內部資料孤島,將是重要方向。
最後是海量資料處理能力的挑戰。隨著 AI 應用普及,資料量將呈指數增長,這對資料庫能力提出巨大挑戰,同時也是產業機遇。
我們堅信,把資料的處理、加工和計算統一化是最高效的。分散的標量、向量等處理方式,在成本、效率、穩定性上都不是最優解。如果一個產品能將 AI 落地所需的多種能力(標量、向量、全文檢索等)整合在內部,而非讓客戶自行組裝多個工具,這將是更有生命力的方案。
這意味著客戶無需為一個 AI 應用拼湊多個數據產品,避免運維複雜性、成本增加和穩定性風險。如果技術上能實現這種一體化,為客戶提供更簡潔、強大的選擇,這就是未來方向。