
2006 年,英國數學家克萊夫·洪比一句“資料是新石油”的比喻,成為無數大資料企業自證合理性的“護身符”。
石油需煉化,資料亦需提純,這仍是真理。但洪比沒說的是——石油越燒越少,資料卻越用越多;一桶原油只能燒一次,而一條資料被 AI 點燃後,會不斷裂變衍生新的資訊、新的資料。
過去三年,我們親歷了這場 GenAI 催化的資料裂變。
GenAI 讓“資料 – 模型 – 場景”的價值閉環提速百倍。資料不再只是企業決策的輔助,而是主導企業決策的核心資產。這是一次看似微小的“蝴蝶振翅”,但隨之而來的,或許是整個大資料產業格局被重構。
資本的嗅覺一如既往的敏銳。2024 年末,資料智慧公司 Databricks 拿下 100 億美元融資,將“Data+AI”的理念推向臺前,並賦予其完整的產品內涵。
今年,熱情傳遞到中國市場。近期,國內官方代表之一上海資料交易所,交出了一份半年 30 億元資料交易額的答卷,並聯合產業夥伴成立區塊鏈跨鏈實驗室,明確在未來三年內建起 1000 座“數紐中心”。這是資料流通第一次被真正當做“基礎設施”,像電網、高鐵一樣,有了自己的“三年規劃”。
於是,我們可以看到,在過去半年,雲廠商、運營商、系統整合商,甚至老牌 ERP 巨頭,只要有大資料業務的廠商,幾乎都把 “Data+AI”寫在未來戰略規劃最顯眼的位置。
最新出牌的,是阿里雲。
7 月 23 日,阿里雲在飛天釋出時刻上正式公佈了大資料平臺 ODPS 的“Data+AI”戰略升級,瞄準當前 GenAI 時代企業對大資料平臺的最新需求,升級了整個 ODPS 產品家族,涵蓋 ODPS-MaxCompute、ODPS-Hologres、ODPS-DataWorks 等核心產品。
阿里雲 ODPS 此次升級不僅給“Data+AI”熱潮添了一把火,還釋放了一個更深層的訊號——在 AI 時代,大資料平臺,正在從以往高效的“資料處理工具集”,演變為一個更底層的“資料基礎設施”。而 ODPS 已經完成轉型。
“Data+AI”之所以成為大勢所趨,是因為今天企業面臨的“資料困境”,遠比 GenAI 出現前更復雜,也對底層的資料平臺有更嚴苛的要求——一方面,數字化轉型遺留的“資料孤島”等歷史問題尚未根除;另一方面,GenAI 又帶來了對多模態資料處理、即時性、算力以及治理能力的全新挑戰。
舊疾未愈,又添新症。以往“缺啥補啥”的工具思維正逐漸失效,業界開始呼喚一種更具全域性思維、更全能的資料基礎設施。
回看過去十餘年的數字化轉型浪潮,“資料孤島”是一大頑疾,也給企業造成一系列惡劣的連鎖反應:決策者無法獲得完整的業務檢視,導致決策失準;跨部門協作效率低下,錯失市場良機;資料冗餘和不一致性,嚴重影響了資料分析的準確性等等。
十幾年前,電商業務快速發展的阿里巴巴也曾深受“資料孤島”所困。因此,阿里在 2009 年啟動“飛天”專案後,便同步佈局大資料業務。此後十幾年,阿里雲針對資料生命週期的不同環節,提供了一系列專業化的工具和平臺。
例如,為解決海量資料的離線儲存和計算問題,阿里雲自研了 ODPS 平臺;當企業對資料分析的即時性要求越來越高時,阿里雲推出即時數倉 Hologres,能支援 PB 級資料高併發、低延時的互動式分析。
隨著業務複雜度的提升,僅僅有強大的計算引擎已然不夠。於是,阿里雲又推出一站式大資料開發治理平臺 DataWorks。它像一個智慧化的“資料工廠”,提供了從資料整合、資料開發、任務運維到資料治理的全鏈路能力,解決資料生產過程中的效率和規範性問題。
阿里雲還陸續推出了資料湖構建(DLF)、E-MapReduce 等產品,共同構成了一個覆蓋離線、即時、資料湖等多種場景的大資料解決方案矩陣。這些工具和方案根據不同的企業需求彼此組合,幫助無數企業解決了特定的資料難題。例如,在大資料治理方面,極氪基於MaxCompute+DataWorks等阿里雲核心產品構建的全託管大資料平臺,提供穩定可靠的SLA保障,減輕運維成本。阿里雲的Flink+Hologres大資料計算引擎構建的即時數倉也帶來數倍的效能提升。
然而,GenAI 的到來,徹底改變了遊戲規則。它對資料的需求不再是單一維度的“大”或“快”,而是呈現出前所未有的複雜性和系統性。以至於有觀點認為,如果企業的資料沒有為 GenAI 做好準備,那麼企業自身也沒有為 GenAI 做好準備。
這種“準備”意味著什麼?
首先,是多模態資料的融合挑戰。GenAI 應用需要同時理解和處理文字、影像、音影片等多種非結構化資料。這要求資料平臺不僅能儲存這些異構資料,更要能進行高效的跨模態對齊、融合與處理,而這恰恰是傳統以結構化資料為核心的數倉或單一工具的短板。
其次,是資料處理與 AI 模型訓練的無縫銜接。以檢索增強生成(RAG)為例,其效果高度依賴於能否快速、準確地從海量知識庫中檢索到相關資訊,並將其作為上下文餵給大模型。這個過程涉及資料清洗、向量化、索引構建、即時檢索和模型推理等多個環節。如果這些環節分佈在不同的技術元件上,資料需要在多個系統間“長途跋涉”,由此產生的延遲、成本和資料一致性問題,從而制約 AI 應用的效能和價值。
最後,是全鏈路的治理與安全。當資料和 AI 深度繫結,資料治理的範疇也從傳統的質量、安全擴充套件到了模型的偏見、公平性和可解釋性等倫理維度。此外,AI 應用追求資料的即時、快速流動,以實現敏捷決策和智慧響應。然而,資料的每一次流動都伴隨著安全與合規的風險。這形成了一個“信任悖論”:一方面,資料必須流動才能創造價值;另一方面,不受控的流動可能導致災難性後果。
上述挑戰環環相扣,構成了一個複雜的系統性難題。而要在一個割裂的技術棧中,實現對資料從源頭到 AI 應用輸出的全鏈路追蹤、審計和管控,幾乎是不可能完成的任務。
企業需要的不再是一個個獨立的“瑞士軍刀”,而是一個能夠將資料處理、模型訓練與部署、智慧應用開發和全鏈路治理融為一體的、真正的 Data+AI 一體化平臺。
這也是在 AI 時代,大資料平臺必須向“資料基礎設施”轉型的核心原因——它必須像電網、高鐵一樣,成為穩定、可靠且能無縫整合各種功能的底層支撐。
在 Data+AI 已成行業共識的今天,為什麼我們要把阿里雲 ODPS 此次更新單獨拿出來看?
關鍵在於,這並非一次簡單的功能疊加,而是從底層架構上重新定義“資料”與“AI”關係。過去,資料平臺和 AI 平臺往往是兩個獨立的體系,資料工程師負責準備資料,演算法工程師負責訓練模型,二者之間透過 ETL 或 API 進行銜接。這種模式在 GenAI 時代顯得越發笨拙和低效。
而 MaxCompute 此次升級,則試圖將 AI 能力嵌入到資料平臺中。AI 不再是資料處理流程下游的“消費者”,而是和資料儲存、計算、治理環節相互融合,最大程度消除資料在 AI 全鏈路流通中的割裂感和延遲感。
這種設計思路,恰恰符合 AI 時代資料基礎設施的底層邏輯。
一個合格的基礎設施,首先要有一個統一的承載底座。阿里雲 ODPS 則以物件儲存 OSS 為統一資料湖底座,結合資料湖構建(DLF)進行統一的元資料管理,解決了結構化、半結構化和非結構化資料的統一儲存和治理難題。MaxCompute 和 Hologres 則在此基礎上構建了離線即時一體化能力,不僅僅讓湖與倉之間實現了資料的自由流動,還讓資料計算的時效性與成本實現了平衡。
這就好比給企業資料鋪了一層“地基”,讓不同型別的資料都能在同一片土地上互動,避免了資料冗餘和遷移成本。
其次,基礎設施還要有高效、一體化的資料處理能力。針對資料處理與 AI 模型訓練無縫銜接的訴求,MaxCompute 此次推出了新一代分散式計算框架 MaxFrame。它並非簡單的 Python SDK,而是一個與社群 Pandas 介面相容的原生 Python 引擎,可以直接在 ODPS 的海量資料上進行分散式計算。
這意味著,從資料預處理到 AI 模型訓練,整個流程都可以在一個統一的框架內完成。同時,人工智慧平臺 PAI(Platform for AI)可以直接在 MaxCompute 的資料上進行模型訓練和部署,實現“存算訓”一體化。
這並非紙上談兵。架構創新帶來的優勢在具體的業務場景中已有所體現。在為通義多模態大模型進行資料預處理時,正是利用 MaxFrame,將千萬級的影片檔案在幾十小時內高效完成抽幀,效率相比傳統方案提升數倍;在某人工智慧實驗室的海量 Web 文字去重場景中,採用 MaxFrame 後,效率比使用者自建 IDC 方案提升 200%。
在 MaxFrame 能力基礎上,MaxCompute 提供了 Object Table 等表型別,可以直接以表的形式管理和處理 OSS 上的圖片、音影片等非結構化資料,並透過 MaxFrame 進行高效的分散式處理,從而解決了前文提到的多模態資料處理問題。除此之外, Hologres 在高效能即時資料分析的基礎上,提供了面向多模態資料和 RAG 場景的檢索增強特性,與 Deepseek/ 通義等大模型結合構建企業級 RAG 知識庫,減少大模型問答幻覺,提升知識更新與問答速度
最後,任何基礎設施都離不開一個高效的“指揮中心”,DataWorks 就在 ODPS 的技術體系中扮演了這個角色。它提供了千萬級任務排程能力和主動式資料資產治理服務,保障 Data+AI 一體化開發的高效穩定執行。
它不僅支援 MaxCompute、Hologres、EMR、PAI 等多種計算引擎的混編任務流,還集成了智慧 Copilot 助手,能透過自然語言生成 SQL,將資料開發與分析效率提升 30% 以上。此外,DataWorks Agent 則能夠讓使用者透過自然語言完成建表、任務運維、資料整合等複雜任務,降低了資料開發的門檻。
透過解析這幾項核心能力的升級,我們可以看到,阿里雲已經構建了一個從資料到智慧的閉環——資料在統一的湖倉底座上被高效治理和處理,無縫流轉至 AI 平臺進行模型訓練與推理,最終透過智慧應用對外提供服務,而應用產生的新資料又迴流至平臺,形成真正的“資料飛輪”。
這個飛輪的形成,意味著阿里雲 ODPS 已經從一個“大資料工具組合”轉型為“AI 時代的資料基礎設施”。
對於那些掙扎在資料準備、模型訓練,以及 AI 應用開發之間企業而言,這種架構層面的演進,提供了一種“一石多鳥”的破局方向。企業無需在多家技術廠商間反覆遊走,只需把把業務邏輯建立在新的基礎設施上,就能按需解決整個資料生命週期的難題。
當然,這只是理想狀況下的結果。
今天的“Data+AI”仍然處在概念層面,要真正讓 ODPS 這樣的“資料基礎設施”變成企業標配,仍然困難重重。
畢竟,企業在擁抱 Data+AI 時面臨的最大挑戰,往往並非技術本身,而是組織文化和人才儲備。根據德勤的調查,許多 AI 專案失敗的根源在於資料管理能力的不足,而這背後是資料文化的缺失。因此,要成功轉型,企業必須培育一種“資料驅動決策”的文化,讓資料素養成為從高管到一線員工的必備技能。
與此同時,AI 時代的人才缺口也日益凸顯。企業需要的不再是單純的資料工程師或演算法專家,而是既懂技術、又懂業務,並能將兩者結合創造價值的複合型人才。
因此,基礎設施層面的技術突破,只是 Data+AI 趨勢變革的第一步。
目前,雖然“Data+AI”的技術邊界仍然模糊,但從企業核心需求以及頭部廠商阿里雲 ODPS 的最新升級中,AI 時代資料基礎設施的面貌已經逐漸清晰,我們可以勾勒出以下關鍵特徵:
-
“統一”:平臺必須能夠打破物理和邏輯上的資料壁壘,實現對多雲、本地、多模態資料的統一管理、統一元資料和統一治理。
-
“智慧”:AI 能力將深度融入資料全生命週期。從 AI 輔助的資料開發(如通義靈碼)、智慧化的資料治理,到 AI 驅動的業務洞察,平臺本身將成為一個“會思考”的助手。
-
“開放”:為避免廠商鎖定,平臺必須建立在開放標準和協議之上,如支援開源的湖倉格式(Iceberg、Hudi),並提供豐富的 API 生態,允許企業靈活整合第三方工具和應用。
在這些核心特徵下,“Data+AI”真正的競爭焦點,正從“誰的模型更強大”,轉向“誰能構建出更好用的資料基礎設施,幫助企業釋放資料價值”。
在這場平臺之戰中,以阿里云為代表的雲廠商無疑佔據了先發優勢。
雲廠商擁有從 IaaS 到 PaaS,再到 SaaS 的完整技術棧,使企業能夠將分析、人工智慧和機器學習直接整合到其資料管道中。未來,雲不再是可有可無的技術選擇,而是企業部署 AI 必備的業務支撐。因此,AI 時代企業對大資料平臺的需求變化,也讓雲計算也迎來一場“價值重估”。
一旦一家企業選擇在某個雲平臺上構建其核心的資料處理、分析和 AI 決策系統,其遷移成本將不再是簡單的伺服器或資料庫遷移,而會涉及到整套業務系統的移植。
這種由一體化平臺所構建的“客戶粘性”,將成為雲廠商在 AI 時代最深、最寬的護城河。
但 Data+AI 並非只是雲廠商的獨角戲。國外已經出現諸如 Databricks、Snowflake 等專注於資料領域的“專業型選手”,它們以其極致的產品體驗和開放的生態策略,同樣贏得了大量忠實使用者。
無論如何,在 Data+AI 的複雜體系中,沒有任何一家企業能夠“包打天下”,構建一個開放、共贏的生態系統,成為所有玩家的必然選擇。
對於所有企業而言,看懂這場“工具”到“新基建”的正規化轉移,選擇正確的合作伙伴,將是未來數年內最重要的戰略決策之一。
點選【閱讀原文】,阿里雲 ODPS 普惠算力再升級