編輯:Panda
「Scaling Law 即將撞牆。」這一論斷的一大主要依據是高質量資料不夠用了,正如前 OpenAI 首席科學家 Ilya Sutskever 在 NeurIPS 2024 大會上警告的那樣:「我們所知的預訓練即將終結。」雖然近幾個月由於測試時間計算(test-time compute)正規化的快速發展,這個曾經喧囂一時的觀點現在已經少有人提,但資料對 AI 的重要性卻不減反增,已然成為當前正在持續的「大模型大戰」中最耀眼的元素之一。
為什麼資料很重要?從本質上講,當前幾乎所有 AI 模型都依賴對資料中模式的學習,機器獲得智慧的過程很大程度上是對訓練資料機率分佈的建模與泛化。而隨著我們進入了「AI 下半場」,資料庫的發展正規化也正從現有的「AI for DB」和「DB for AI」轉向「Data×AI」,即資料與模型的一體化融合發展,同時「資料庫」也正擴充套件成「資料底座」,即能夠同時處理 OLTP、OLAP 和 AI 的混合負載的一體化引擎。這也是大模型真正落地、產生價值的基礎。
正如 OceanBase CTO 楊傳輝在 5 月 17 日的 OceanBase 2025 開發者大會上說的那樣:「我認為在 AI 時代,我們需要的是一個一體化的資料底座,它的底層需要實現單機分散式一體化和雲上雲下一體化,使用者需要一套統一支援 SQL、AP 和 AI 的資料庫、資料底座。」這意味著,資料庫系統正在從傳統意義上的「儲存介質」進化為 AI 執行的「地基」。 OceanBase 要做的正是「向一體化資料底座演進」。
為什麼需要 Data×AI?
雖然「Scaling Law 撞牆論」宣稱高質量資料即將耗盡,但實際上這裡提到的高質量資料主要是指人類產生的易於獲取的網際網路資料。另一個方向上,隨著生成式 AI 和新型數字化技術的發展,新生成的資料卻正在日益暴增!IDC 預計,2028 年全球新生成資料量規模將達到驚人的 393.9 ZB—— 在 2024 年 147 ZB 的基礎上還將以平均每年近 28% 的速度增長。如此海量的資料增長將給資料基礎設施帶來巨大的壓力。不僅如此,多模態與非結構化資料爆發式增長、資料擴充套件性和碎片化等問題也在不斷加劇。
這些問題綜合起來,對底層基礎設施的儲存容量、架構擴充套件和即時分析能力提出了更高要求;也因此,資料庫的穩健性與可擴充套件性已經成為 AI 應用成功的前提,正如資料科學界一句老話說的那樣:「資料的邊界決定模型的上限 」。如何高效、可靠地儲存、管理和呼叫這些資料,成為 AI 基礎設施能否支撐下一個十年的關鍵考驗。可以說,資料在 AI 時代正面臨著一場角色的重塑。
當然,這些需求也已經成為了相關領域發展的重要推動力。據 IDC 統計,2024 年全球大資料 IT 總投資規模約為 3540 億美元,預計到 2028 年將增長至近 6440 億美元。
「Data×AI」正規化便是在這一背景中誕生的,傳統意義上的 Data Infra(資料基礎設施)概念正在走向升級:
Data Infra + AI → Data × AI Infra
也就是說,資料系統的作用不再只是為 AI 提供資料,而是本身也成為 AI 工作流程的一部分,與 AI 協同發展。

透過資料與 AI 的一體化融合,「Data×AI」正規化有望解決行業資料流通難、多模態資料處理難、質量評估難等諸多問題。
比如在行業資料方面,資料碎片化早已是普遍存在的老大難問題,尤其在金融、醫療、工業製造等複雜嚴謹的行業,資料不僅分散在不同業務系統中,還存在極強的結構異構性和組織粒度差異。資料彙集的難度遠高於演算法構建。垂類資料缺乏統一建模方式,導致即使擁有大模型能力,也難以完成語義理解與業務聯通。很多企業所謂的「AI 能力不足」本質上是「資料層打不通」。
多模態資料處理難主要體現在資料融合和對齊的複雜性上。在實際應用中,文字、影像、音訊、影片等不同型別的資料具有各自獨特的結構和特性。例如,文字資料是線性的,影像資料是二維的,而音影片資料則是時序性的。將這些異構資料有效地融合在一起,要求系統具備強大的資料對齊和同步能力。此外,不同模態的資料在質量、密度和可用性方面可能存在顯著差異,進一步增加了處理的複雜性。這些挑戰使得多模態 AI 系統在實現高效、準確的決策支援方面面臨嚴峻考驗。
資料質量評估難則主要源於資料的多樣性和動態性。在 AI 模型訓練過程中,資料的準確性、完整性、一致性和時效性直接影響模型的效能。然而,隨著資料來源的多元化和資料量的激增,傳統的資料質量評估方法已難以滿足需求。例如,自動化工具可能難以識別和糾正資料中的細微錯誤或偏差,尤其是在非結構化資料中。此外,資料的即時更新和變化也要求評估機制具備高度的靈活性和適應性。因此,建立高效、智慧的資料質量評估體系,成為確保 AI 模型可靠性和有效性的關鍵。
這些問題的解決將成為 AI 真正實現大規模乃至普及化應用的重要基礎,尤其是在金融、健康、生活、開發等一些核心應用場景中。
而已發展 15 年的 OceanBase 已在這些方面取得了長足的進步。作為一個一體化分散式資料庫,OceanBase 已經具備了一定的 AI 時代資料處理能力,如分散式有效應對海量資料的儲存計算、多模融合統一處理不同結構資料、 TP/AP 一體化實現混合事務和即時分析處理。但大模型落地產生價值的核心在於資料與模型的一體化融合,這也正是 OceanBase 提出的構建 Data×AI 能力的關鍵。基於此,OceanBase 正在向 AI 時代戰略躍遷。
OceanBase 在 AI 時代的戰略躍遷
從最初的工程一體化、多租戶、多相容模式,演進到 HTAP 工作負載一體化(混合事務/分析處理),再到單機分散式一體化、多模型、多資料介面,還有如今 Shared Nothing 和 Shared Storage 兩種部署模式的一體化,以及面向未來多雲基礎設施的存算分離引擎,一體化理念一直是 OceanBase 產品迭代不斷發展的核心。

這種理念也切實地給 OceanBase 的發展帶來了助益。自 2010 年開始投入研發以來,這款脫胎於螞蟻集團的原生分散式資料庫現已支付寶全部核心賬務與核心支付系統,並連續十餘年穩定支撐雙 11,歷經流量洪峰和穩定性考驗。不僅如此,OceanBase 還是全球唯一接連打破「資料庫世界盃」TPC-C 和 TPC-H 測試紀錄的資料庫,並已入選世界網際網路領先科技獎。經過 15 年在海量核心場景中的持續深耕,OceanBase 已助力金融、政務、運營商、零售、網際網路等多個行業的 2000 多家客戶實現關鍵業務系統升級。
而現在,為了實現從一體化資料庫向一體化資料底座(Data×AI)的演進,從去年 3 月開始獨立運營的 OceanBase 一直在進行有針對性的創新研發。在 OceanBase 2025 開發者大會上,OceanBase CEO 楊冰總結了他們正在推進的四個大方向:
-
成為「知識底座」。企業要向智慧化發展,必須要有一個更加貼合企業內部執行資料和領域知識的內部知識庫,因此融合知識至關重要。為此,OceanBase 計劃要做的包括增強向量能力、提升融合檢索能力、實現企業知識儲存體系的動態更新、深度整合模型後訓練與微調。
-
打破「資料次元壁」。需要實現多模態的、不同形式和來源的資料的標量資料和向量資料的融合,為此還需要在資料儲存的檢索層上取得更多突破。
-
當 AI 的「靠譜參謀」。當前 AI 查詢和引用的資料可能是不一致的或非即時的,甚至可能還是錯誤級的;為了解決這個問題,需要深度融合推理引擎和資料儲存引擎。
-
做流量的「衝浪高手」。網際網路上的流量存在明顯的波峰和波谷,比如雙 11 期間網購流量就會暴增。彈性地應對流量波動也非常關鍵。這是 OceanBase 的強項 —— 結合雲的虛擬化的能力以及 OceanBase 的分散式的能力,並且深度適配這些訓練以及推理的場景,可以最大化地挖掘這些資料的價值,同時獲得最大的價效比。
會上,我們也看到了 OceanBase 在這些方向上的成果的一次集體展現。
首先來看一個現場跑分資料:OceanBase 在 VectorDBBench 上 的向量效能。透過現場測試 100 萬條 768 維的資料並對比其它 3 款開源向量資料庫,OceanBase 以領先的成績證明了自己的實力。

OceanBase 還在原有的向量索引 HNSW 的基礎上引入的 BQ 量化演算法 —— 可將向量資料的記憶體需求平均降低 95%!舉個例子,假設有 2 億條 1536 維的向量資料,如果直接儲存到記憶體,要用 1.2 TB 的記憶體,但如果進行量化處理,則只需 58.6 GB 即可。而對於向量資料量特別大以至於無法完全放入記憶體乃至需要分散式儲存的情況,也可以透過量化的方式達到極致的效能。
這種在效能、成本、穩定性、運維性等方面的優勢使 OceanBase 非常適合作為生產系統進行部署。
在此基礎上,OceanBase 還在不斷獲得新能力,比如其擁有非常豐富的資料模態支援 —— 不僅支援傳統關鍵資料庫裡的標量(OLTP、OLAP),也支援支援 JSON、全文索引、向量、混合搜尋。而且 OceanBase 針對向量與標量混合檢索的能力進行了引領業內的最佳化。
在這些底層技術能力的基礎上,針對大模型的資料檢索問題,OceanBase 在此次開發者大會上專門釋出了一款面向 AI 時代的開箱即用的 RAG 服務:PowerRAG。其將不同類似文件的識別、切分、嵌入以及放入向量資料庫和寫 LLM 提示詞等工作都封裝成了一個公有云服務。OceanBase CTO 楊傳輝表示:「我們的 PowerRAG 已經達到了業界主流 RAG 應用的效能水平,它的準確率和召回率肯定好於開發者自己寫的 RAG。」

另外,OceanBase 也已經與業界主流的智慧體(Agent)平臺進行了很好的適配,包括 Dify、FastGPT、DB-GPT、LangChain 等。OceanBase 也已經實現了對 MCP 協議的支援。

毫無疑問,OceanBase 正在全力擁抱 AI。
上個月,OceanBase 宣佈 CTO 楊傳輝擔任 AI 戰略一號位,全面統籌 AI 戰略制定和技術產品落地。同時還宣佈成立了 AI 平臺與應用部並在原有的 OB 底層引擎團隊裡新成立了 AI 引擎組。
OceanBase 也對自己的「Data×AI 一體化資料底座」戰略方向信心十足。在談到「OceanBase 為什麼行」時,除了 OceanBase 15 年堅持自主研發的過硬技術實力,CTO 楊傳輝還給出了兩大理由:
-
Data×AI 一體化資料底座其實是 OceanBase 一體化資料庫的延伸,它的核心在於能不能做好資料處理,只是資料處理的範圍會有所拓展。
-
AI 時代的應用大爆發給了 OceanBase 更大的機會,因為 AI 時代的應用會產生兩個需求:更海量的資料和混合負載;而一體化和分散式剛好又是 OceanBase 的優勢。
另外,相信「開源」也是這個問題的答案的重要組成部分。開源也是 OceanBase 2025 開發者大會上一個被重點強調的關鍵詞。自 2021 年 6 月 1 號正式開源以來,OceanBase 已經成長為最流行的中國開源資料庫之一 —— 已連續兩年獲得了「墨天輪」排名第一。楊傳輝介紹說,OceanBase 的社群使用者下載量已經突破了百萬量級,並且叢集的部署數量也已超過 5 萬,增長還非常快 —— 年環比增長超過 400%。

墨天輪排行榜當前前 10 名,可以看到 OceanBase 目前以顯著優勢位居第一,截圖來自 modb.pro/dbRank
AI 帶來的深刻變革已經開始顯現,其核心的資料自然也是這場變革的重中之重,甚至可能「未來所有的資料公司都將成為 AI 公司」—— 正如螞蟻集團 CTO 何徵宇說的那樣。在這場變革中,憑藉「Data×AI」戰略,我們或將看到 OceanBase 迎來自己的躍遷。
資料庫正在成為一大關鍵變數
當大模型的引數增速趨緩、應用同質化競爭加劇,一場「回到底層」的產業反思已經開始。人們越來越清楚地意識到:模型能走多遠,取決於它腳下的資料有多厚實。畢竟 AI 不是空中樓閣,需要堅實的資料地基。
OceanBase 的方向並不神秘:構建一個真正為 AI 而生的一體化資料底座。從 PowerRAG 到壓縮和量化演算法,從向量支援到多模態資料融合,OceanBase 正讓資料庫成為下一個關鍵變數。正如 OceanBase CEO 楊冰在 4 月底的全員信中說的那樣:「誰能更好地解決 Data 和 AI 的融合,實現 Data×AI,誰就能成為 AI 時代的資料底座。」
是時候把注意力投向那些看似「傳統」的地方了。因為真正能承載未來智慧的,不是某個爆款應用,而是能夠支撐千行百業、接住海量資料洪峰的下一代資料底座。
OceanBase 的路徑並非孤例,背後是整個資料庫行業正與 AI 協同演進的共同趨勢。資料庫,還將繼續進化。
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]