2025Lakehouse趨勢全景展望:從技術演進到商業重構

1 為什麼湖倉正在成為企業資料架構的必選項?
越來越多的企業正在透過即時資料處理能力構建核心競爭力——使用者期待 APP 精準捕捉需求並即時響應,企業員工追求業務系統的秒級反饋,這些場景背後是千億級資料資產的敏捷排程。
據 IDC 預測,2025 年全球資料量將突破 175 ZB,非結構化資料佔比超過 80%,到 2027 年全球資料生成量更將突破 300 ZB。
企業正迎來資料價值釋放的黃金階段,而湖倉(Lakehouse)成為其中的關鍵引擎:
  • 多模態資料融合:隨著 AI 應用深入,結構化、半結構化與非結構化資料的協同分析正創造新的業務場景。湖倉架構原生支援多源異構資料統一管理,讓影片分析、文件解析等跨模態分析成為可能。
  • 性價持續突破:採用存算分離架構(如 S3/OSS 物件儲存),企業儲存成本可降至傳統數倉的 10%,同時透過彈性計算資源排程,實現即時查詢與批次處理的靈活成本控制。
湖倉架構(Lakehouse)正成為企業實現資料價值的戰略性基礎設施。
據資料統計,全球即時 Lakehouse 市場規模預計將從 2025 年的 2.85 億美元增長到 2031 年的 12.41 億美元,這些資料進一步印證了湖倉架構的戰略價值。
透過開放表格式(Iceberg/Hudi/Paimon 等),配合流批一體引擎(如 Flink+StarRocks),企業可實現“One Data,All Analytics”,並以較低的成本獲得 PB 級儲存和亞秒級查詢響應。
過去一年裡,湖倉生態鏈條內工具快速發展壯大,逐漸帶領體系走向成熟:
  • 開放表格式統一:Snowflake 開源 Polaris Catalog、Databricks 收購 Tabular,推動 Iceberg 成為跨雲資料湖事實標準;AWS S3 與 Azure Data Lake Storage 全面支援 Iceberg,雲廠商“站隊”開放生態。
  • 元資料層競爭:Unity Catalog 與 Polaris Catalog 開源,標誌著元資料管理從“私有協議”走向“開放協作”,企業可跨引擎統一管理許可權、血緣與模型。
在數字化轉型深水區,湖倉架構為企業提供了“彈性擴充套件 – 效能突出 – 成本可控”三重價值的解決方案。
2 Lakehouse 三大核心技術演進
儲存層:統一資料來源,低成本支撐全場景分析
儲存層實現了“Single Source Of Truth”,支撐 AI 訓練、BI 分析等場景的統一儲存與用數,避免了傳統架構中資料流轉產生的損耗,顯著降低企業儲存成本。
透過開放表格式,儲存層支援的資料型別也從結構化擴充套件到 JSON 等半結構化資料,以及面向 AI 場景的影片、音訊等非結構化資料。
另外,儲存層還引入了主鍵索引、向量倒排索引等多級索引體系來提升資料訪問效率,同時支援從批次操作到流式即時讀寫的多種處理模式,滿足企業全方位資料需求。
計算引擎層:多元拓展,極致價效比
計算引擎層呈多元融合發展趨勢,典型的如 Spark(批處理)、Flink(流處理)、StarRocks(即時分析)等引擎正在積極拓展自身功能便捷,打破傳統細分界限,向統一引擎進化。
同時,引擎層更加註重價效比的提升,透過支援 ARM 架構、GPU 等新型硬體,以及引入全域性快取等創新機制,最佳化計算效率,在保持引擎專業特性的同時也有更高的資源利用率。
以 StarRocks 為例,作為查詢引擎,效能和價效比仍是 StarRocks 最佳化重點,並將持續增強對湖生態支援,讓原本需要多個引擎才能完成的任務用一個統一引擎完成,資料處理更便捷和智慧:
  • 提升價效比,提供更好的統計資訊收集、索引和物化檢視支援以提升效能。
  • 跟進儲存層新演進,支援半結構化型別、DELETE Vector 等即時場景最佳化功能。
  • 實現完整的讀寫、DDL、儲存過程、Table 遷移等功能。
  • 開展資料儲存最佳化工作,如 Compaction 服務和資料自動佈局最佳化。
元資料層:從目錄管理邁向資料智慧
元資料層的管理範圍已從傳統的表、檢視擴充套件到 AI 模型、特徵、指標等多維度資料資產。透過提供統一的元資料服務,實現對不同計算引擎的無縫對接。在資料治理方面,元資料層也提供了全方位的許可權管理、排程編排和資料血緣分析能力。
另外,元資料層也開始與 AI、BI 技術深度融合,支援資料資產的智慧發現與管理。目前市場上 Unity Catalog、Gravitino 等解決方案都在積極完善產品能力,推動著元資料管理向更智慧化方向發展。
3 2025 年 4 大趨勢預測
隨著 Lakehouse 架構在 2024 年獲得國際主流認可,2025 年將進入更深層次的發展階段。基於對市場動態和使用者實踐的調研,我們認為接下來將有以下四大關鍵趨勢:
趨勢一:開放表格式(Iceberg)成為事實標準
隨著越來越多企業選擇將傳統架構(如 Hadoop、ClickHouse 等)遷移到基於開放表格式的湖倉上來,全球市場的開放表格式呈現出“雙軌並行”的競爭格局。
海外市場中,Apache Iceberg 憑藉其成熟的生態系統和主流雲廠商的支援,已確立主導地位,成為開放湖格式的事實標準。而在國內市場,Apache Paimon 則是一部分頭部網際網路企業的首要技術選擇。
二者競合關係類似於 Spark 與 Flink 的市場格局,兩者將在不同場景下相互補充。值得注意的是,Paimon 也已支援生成 Iceberg 相容的元資料,為使用者提供更靈活的技術選擇。
趨勢二:介面標準化催生出模組化搭建湖倉的機會,更靈活、高性價比
隨著開放標準的確立與生態成熟,模組化湖倉架構將獲得更多企業(尤其是頭部企業)認可。企業可以根據業務需求,透過儲存、引擎、元資料的靈活組合,實現最優價效比。
這種轉變的主要推動因素:
  • 開放標準日益成熟,使元件之間的協作更加靈活
  • 企業希望避免被單一供應商鎖定,實現自由的技術選型
  • 降本增效核心訴求,即更高的價效比
特別是有一定技術實力的頭部企業,更傾向於透過靈活組合儲存、計算引擎和元資料管理能力,構建最適合自身需求的資料架構,而非選擇單一廠商的一體化解決方案。
趨勢三:即時湖倉將成為國內企業升級的核心切入點
即時資料處理需求正從“T+1”和小時級向秒級分析演進,這使得即時湖倉成為企業資料架構升級的首選切入點。相比傳統架構,即時湖倉方案具有兩大優勢:滿足業務即時性要求和顯著降低 TCO(總體擁有成本)。
憑藉其出色的流批一體特性,Paimon 在即時場景中表現突出,正獲得越來越多國內企業青睞, Paimon+StarRocks 的組合也成為企業實現即時湖倉的選擇之一。
鏡舟彙總和梳理了過去 1-2 年 StarRocks 在網際網路、金融等行業的標杆案例,觀察到湖倉技術在中國落地仍需經歷三個階段:
  • 短期:企業會選擇以即時湖倉為切入點,透過 Paimon+StarRocks 組合完成快速部署,以響應業務側需求。同時這一階段,存算分離將作為重點方案並行發展。
  • 中期:隨著生態系統逐步完善,開放湖格式將覆蓋更多場景,企業會將選擇近即時及部分離線業務遷移到湖倉上來,向統一資料儲存與應用靠攏。
  • 長期:傳統數倉將逐步被湖倉替代,形成真正統一的 Lakehouse 架構,並支援將 AI 和資料分析場景深度融合,進一步實現資料智慧。
趨勢四:AI 原生 Lakehouse 成為新的基礎設施
湖倉正在成為企業 AI 基礎設施的重要組成部分。據畢馬威人工智慧報告顯示,86% 的海外企業計劃統一其分析資料以支援 AI 開發。而在國內,這一趨勢同樣明顯,諸如騰訊、Bilibili、小紅書等頭部網際網路企業的湖倉架構均涉及了不同程度的 AI 應用。
AI 訓練資料需求將推動更多企業從傳統數倉遷移到 Lakehouse 架構,例如非結構化資料處理、向量檢索等能力訴求。湖倉一體能夠支援即時流處理與機器學習,滿足模型訓練需求。
這四大趨勢相互影響、相互促進,共同推動著湖倉技術的演進。不過無論是否考慮選擇湖倉架構,企業都需要對自身技術現狀進行全面評估。
4 企業資料平臺選型建議
1. 當前企業現有架構評估
首先,企業需要分析當前的資料規模和增長趨勢,判斷是否面臨儲存成本過高的問題,是否對即時分析著迫切訴求,以此衡量現有架構對經營與效率產生的影響。其次,要評估現有技術棧的能力和侷限性,包括查詢效能瓶頸、運維複雜度、上下游拓展適配,以及對新興 AI 應用的支援能力等。
同時,遷移成本也是一大考量因素。除了基礎設施投入成本,還涉及技術、運維團隊培訓成本、業務中斷風險等方面。
透過綜合評估,企業能夠更清晰地認識到湖倉架構是否真正適合自己,以及遷移方案。
2. 技術選型分析與建議,因需施策
鏡舟科技基於過去在湖倉領域的實踐經驗,梳理了不同業務需求下的技術選型方向,供企業參考:
  • 注重即時分析
有此類場景需求的企業,可以優先關注 StarRocks+Paimon 的組合架構,這種方案不僅能夠滿足秒級查詢需求,還能透過流批一體化處理提供更即時的資料洞察。
以餓了麼為例,餓了麼從離線數倉 + 即時的 Lamda 架構,升級到 Flink + Paimon + StarRocks Lakehouse 方案,支撐即時交易補貼自助分析、以及客戶滿意度服務大屏等場景。相比即時數倉,在增加 15% 查詢延時下,減少約 90% 的儲存成本,減少約 50% Flink 計算開銷
  • 注重降本增效
以降本增效為主要目標的企業,選型時可以考慮存算分離架構配合智慧快取策略,成本優勢顯著,且效能接近存算一體。透過彈性的資源排程和完善的資料生命週期管理,企業可以在滿足即時場景需求、保證效能的同時大幅降低運營成本。
  • 注重 AI 應用拓展
開放湖格式(如 Iceberg)在這一場景下具備一定優勢,它能夠支援多引擎訪問,滿足不同 AI 訓練場景的資料需求,同時透過統一的資料管理降低儲存成本,這也解釋了為什麼越來越多的網際網路企業開始將 AI 相關的資料遷移到湖倉架構。
湖倉架構下的資料平臺最佳實踐:小紅書
架構升級不僅需要技術選型,更需要深入理解業務需求,並在實踐中不斷最佳化和調整。
小紅書作為國內領先的網際網路企業,透過採用 StarRocks + Iceberg 的湖倉架構,實現了顯著的技術突破:
  • 查詢效能:P90 查詢響應時間提升 3 倍,穩定在 10 秒以內
  • 儲存效率:相比原 ClickHouse 架構節省 50% 儲存空間
  • 資料治理:引入智慧排序鍵選擇機制,持續最佳化查詢效率
  • 架構靈活性:支援多種 Join 策略,提升資料自助分析能力
透過一系列創新性的技術方案,包括實現 DataCache 本地快取、引入 Z-Order 智慧排序、支援靈活的 Join 策略等,將 P90 查詢響應時間提升了 3 倍。同時,透過資料跳過(Data Skipping)機制的最佳化,他們在儲存效率上也取得了突破性進展,相比原架構節省了 50% 的儲存空間。
5 結語
在資料要素價值化與 AI 爆發的雙重驅動下,湖倉一體(Lakehouse)已從技術概念演進為支撐企業數字化轉型的核心底座。建議企業關注三個重點方向:
  1. 建立面向開放表格式的資料治理體系,透過 Iceberg/Hudi/Paimon/Delta Lake 等標準介面實現跨平臺資料引用;
  2. 將即時湖倉能力建設納入戰略優先順序,藉助 StarRocks 等即時引擎釋放流式資料價值;
  3. 在 AI 基礎設施規劃中,預留非結構化資料處理能力,構建支援多模態資料應用的未來架構。
作為開源專案 StarRocks 的主要貢獻者,鏡舟科技也憑藉對其深度最佳化和全棧技術整合能力,將 StarRocks 的高效能 OLAP 引擎與現代湖倉架構相結合,助力企業以低成本、高 ROI 投入湖倉浪潮。
今日好文推薦
程式碼界的“瘟疫”?卡帕西“Vibe Coding”興起,YC披露:1/4新創公司,95%程式碼全由AI生成
OpenAI 又貴又“黑”,微軟對供應商亮起“紅燈”:曝出自研大模型,DeepSeek 或成救星?
被罵慘的“現象級”Manus,今天我們來扒一扒它的真實水平!
DeepSeek 開源周過後,國產晶片廠在焦慮中狂歡

相關文章