


作者 | 程茜
編輯 | 漠影
生成式AI時代究竟該如何構建資料庫?
智東西5月20日報道,剛剛過去的週六,OceanBase 2025開發者大會上,我們找到了這家資料庫廠商的答案——一體化資料底座。
OceanBase CEO楊冰說:“一體化資料底座指的是希望透過一體化產品、一體化引擎,同時處理OLTP、OLAP以及AI的混合負載。”
他們想要最終解決的難題就是AI的大爆發時代,資料庫應當如何更好地儲存、處理資料,從而更好地適應新時代需要,謀求更長遠發展。
當下,企業的資料儲存與處理正面臨前所未有的挑戰。一方面,大模型訓練、即時推理等場景產生的海量異構資料,要求儲存系統具備極高的容量彈性與跨模態管理能力;另一方面,資料處理需兼顧事務處理的即時性、分析決策的高效性及AI任務的複雜計算需求。
然而,傳統資料基礎設施與生成式AI下的資料需求割裂,產業亟需能整合多模態資料處理、海量資料處理等特徵,並深度融合AI能力的新型資料底座。
在此背景下,國產資料庫的主力玩家OceanBase,已經在資料庫轉型之路上率先突圍:宣佈全面擁抱AI,打造“Data×AI”核心能力、啟動人才和組織體系升級,並圍繞一體化資料底座為核心釋出首款面向AI的應用產品PowerRAG。

開發者大會同天,智東西等媒體與OceanBase CEO楊冰、CTO楊傳輝進行了深入交流,試圖探尋這家資料庫主力廠商在AI時代的核心競爭力。
01.
從Data Infra向Data×AI Infra躍遷
資料在AI時代的角色將如何重塑?
資料的特徵會直接影響模型的效能、泛化能力和應用效果,但伴隨著AI的發展,資料衍生出一系列亟待突破的全新挑戰。螞蟻集團CTO何徵宇提到了四大挑戰。
作為大模型訓練基石的網際網路公開資料即將枯竭,未來獲取高質量資料的成本將逐步攀升。
嚴謹的行業資料稀缺且流動困難,存在三重特徵:數字化程序滯後、資料質量要求嚴苛、核心數字化知識沉澱不足。

多模態資料需要更強處理能力。未來越來越多的資料需要包含視覺、觸覺、本體感覺和音訊等諸多資訊。
資料的質量評估難。評估的質量決定模型質量,但現有資料與模型質量評估方式,難以指導大模型訓練擺脫“訓模如煉丹”的窘境。
對於資料的重要性,何徵宇一針見血指出:“資料的邊界決定了大模型的能力上限,所有的資料公司都將成為AI公司。”
與此同時,資料量的增長仍在突飛猛進。IDC預測到2028年,受生成式AI等技術驅動,全球新生成資料量規模將達到393.9ZB,其中企業資料規模和增速尤為凸顯,全球企業級資料的資料量較2023年整體增長在400%以上。

可以看到,資料在AI時代的角色正在被重塑。正如楊冰所說,如今資料基礎設施不僅要實現“物理變化”,如支撐海量資料儲存、可擴充套件性等突破儲存、計算的瓶頸,還要發生“化學變化”,如支援知識的學習、獲取,支援應用的推理以及決策。
因此,AI正驅動資料基礎設施Data Infra向“資料×AI”的融合架構Data×AI Infra躍遷。
在生成式AI應用爆發之際,傳統的資料基礎設施的轉型顯得更為急迫。IDC軟體市場研究經理李凌霄提到,資料基礎設施目前的負載割裂、雲環境割裂、多模態割裂、技術債務正阻礙生成式AI落地。
傳統TP+AP環境會造成長資料鏈條資源消耗、負載需求,無法在生成式AI場景下擁有即時支撐能力以及充分的計算資源;同時企業在不同雲平臺間的資料互動、加工、治理割裂;傳統場景下專庫專用的架構做異構資料間聯合查詢時,會造成效能消耗和響應延遲;企業需要在生成式AI時代,保持、延續其此前基礎設施架構的完整。
其中,2023年隨著大模型發展而爆發的向量資料庫,曾因擅長處理非結構化資料被視為企業最大化發揮資料價值的關鍵工具,但如今其難以獨立解決複雜業務問題的弊端愈發凸顯。
諸多企業實現向量融合的方式是在現有資料基礎設施之上融合向量外掛,很少會選擇獨立部署。楊傳輝提到,向量資料庫是一個臨時態,因為使用者在查詢時往往會涉及向量、標量等混合資料,獨立的向量資料庫未來會被替代。
在大模型落地行至關鍵機遇期,資料和大模型能力如何融合,成為資料庫領域企業決勝AI時代的核心競爭力分水嶺。深耕資料庫領域的OceanBase已經先行一步,開始探索構建適配AI時代的資料底座新正規化。
02.
兩大思路加速一體化資料庫轉型
首發AI產品PowerRAG
擁抱AI已經成為千行百業共識,一貫秉持穩紮穩打理念的OceanBase於今年4月底,宣佈全面進入AI時代。
彼時,OceanBase CEO楊冰釋出全員信,宣佈要打造“Data×AI”核心能力,加速打造AI時代資料底座。
具體來看,OceanBase的Data×AI戰略的關鍵是要實現資料與AI的融合,而一體化資料底座就是一體化資料庫的延伸,其核心仍然是能不能做好資料處理。

其背後的考量一直是以使用者需求出發。AI時代對於資料處理的兩個顯著需求是:高質量、海量資料以及混合負載。楊傳輝說,AI應用出現使得工作負載邊界逐漸模糊,其無法嚴格區分向量、標量資料,開發者的需求也隨之變化:他們希望在一套引擎裡直接透過一條SQL處理所有工作負載。
這恰恰是OceanBase的核心優勢所在。OceanBase除了能夠支援OLTP和OLAP傳統資料庫工作負載,還能支援AI領域工作負載,如半結構化資料JSON處理、向量資料庫、混合檢索以及RAG能力等。
從宏觀角度來看,這些技術積澱為資料與模型的一體化融合提供了基礎,成為大模型落地產生價值的關鍵所在。

還是從需求出發,資料和模型實現融合需要解決的有兩大問題:資料處理和模型本身的準確性、成本、行業適配性等。在此基礎上,OceanBase進一步將打造“Data×AI”核心能力細化為兩方面工作:
一方面是要將資料融入模型裡,希望透過提高資料質量、結構化程度,提升模型準確度、推理效率,讓小模型也能有大效果,同時降低推理成本;
另一方面是希望將AI原生整合到資料庫中,楊傳輝闡述說這有兩種融合方式,一是較為直觀的在資料庫裡透過類似AI function方式直接整合大模型能力,另一種是實現SQL+AI的混合計算,分析、問答一體完成,這樣的融合需要較長的時間來實現。
關於一體化資料底座佈局的考量,OceanBase在產品層面首發了面向AI的應用產品PowerRAG,為開發者打造AI驅動的開箱即用RAG服務。
楊傳輝說,他們首要解決的是“能用”問題,透過RAG方式提升大模型準確率,再逐步從“可用”推進到“好用”,使得AI應用走向實際生產場景。

傳統的搭建RAG服務方案存在開發週期長、維護成本高、灰箱除錯困難、效能難以最佳化等問題。打通應用開發資料層、平臺層、介面層與應用層全流程的PowerRAG,可以提供Document(文件)和 Chat(對話)兩個核心API介面,使得使用者可以快速實現文件知識庫、智慧對話、影像比對、資料分析等多種AI應用場景的開發。
這只是OceanBase在應用層面探索的第一步。未來,OceanBase將逐漸形成從算力、基礎設施,到平臺層、應用層、交付形態的一體化資料底座全方位佈局。
03.
15年積澱
企業級分散式資料庫能力已打下基礎
這個勢頭正猛的國產資料庫主力,經過15年的磨礪,已經淬鍊出獨特的Data×AI Infra方法論,構建起智慧時代的核心競爭力。
成立自2010年的OceanBase,是螞蟻集團100%自研的原生分散式資料庫,目前支援支付寶全部核心賬務、核心支付系統,連續十餘年穩定支撐雙十一的高併發場景。
如今OceanBase取得的成績可以用這幾個資料加以概括:IDC釋出的《2024年上半年中國分散式事務資料庫軟體市場跟蹤報告》顯示,OceanBase佔據獨立資料庫市場份額第一、市場整體第四;楊冰透露,目前OceanBase社群已經擁有超2.5萬名開發者,突破100萬下載次數、可統計的開源叢集數超5萬個。

OceanBase已透過橫向擴充套件的技術底座構建起符合AI時代技術能力的技術基礎,同時以縱向深化的高效能資料處理基準,為打造AI時代的一體化資料底座積勢。
從技術底座的佈局看,OceanBase最基本的企業級分散式資料庫能力,為AI時代的海量資料處理分析打下基礎。同時,其同步推進向量效能、混合檢索等支援AI應用落地的核心基礎設施發展。
從效能表現看,OceanBase的效能已經達到開源向量資料庫業界領先水平。楊傳輝現場演示對比了OceanBase與業界主流的3款開源向量資料庫,結果顯示,OceanBase的跑分超過其他三大業界主流開源向量資料庫。

此外,在處理海量資料方面,OceanBase引入BQ量化演算法,OceanBase的測試結果顯示,在同等召回率與效能的情況下,引入該演算法(HNSW+BQ)能夠實現記憶體成本較HNSW降低 95%。
為幫助使用者降低AI場景中常見的半結構化資料儲存成本,OceanBase引入針對JSON半結構化資料的壓縮能力。經OceanBase測試, OceanBase在TPC-H 10G資料集上JSON壓縮比可達MongoDB的3倍。
同時,在技術佈局的前瞻構建與使用者需求的精準洞察之外,OceanBase宣佈了全維度擁抱AI的戰略決斷,並且即刻啟動組織效能革新與人才結構升級的雙輪驅動。
OceanBase CTO楊傳輝擔任AI戰略一號位,全面統籌AI戰略制定和技術產品落地,同時成立AI平臺與應用部、AI引擎組等,將形成AI時代從一體化儲存到一體化計算的全方位佈局。
全面進入AI時代背後,是OceanBase打造AI時代一體化資料底座的技術底氣與信心。
04.
結語:OceanBase全面擁抱AI
資料庫轉型已先行一步
隨著AI發展,資料庫在智慧生態中承載的能力正經歷顛覆性變革,從傳統的資料儲存容器蛻變為驅動AI全流程的智慧引擎。
資料庫企業正以主動變革的姿態,將技術迭代轉化為AI時代的增長引擎。OceanBase希望由“資料庫”向“資料底座”演進,形成全方位、一體化處理這些問題的解決方案,為AI時代的企業解決資料處理難題。

(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)
