
Agent 熱潮不減,但資料分析與治理狀況卻仍存在短板。據 Gartner 公司預測,到 2027 年,80% 的資料和分析治理舉措或將因各類原因而失效。如何在 AI 時代重塑資料治理體系,讓混亂資料重歸有序,成為企業智慧轉型的關鍵命題。
近日,在 infoQ 舉辦的全球人工智慧開發與應用大會上,瓴羊智慧資料建設與治理產品 Dataphin 高階技術專家 周鑫 受邀出席,以「基於統一標準的智慧資料治理 Dataphin 的落地實踐」為主題,系統闡述了以資料標準為核心,實現可持續資料治理的方法論,以及以 AI 賦能自動化資料治理、重構複雜業務流程的實踐路徑。
“事物天生具有‘變混亂’的趨勢,資料也是如此。如何將無序變得有序?按照熱力學第二定律,需要從外界輸入能量,並且具備感知能力。”
周鑫表示:“對於資料治理來說,能量就是治理工具,感知就是標準規範。”資料治理是實現資料世界的“熵減”,它可以透過現狀評估、制定目標、執行計劃、持續監測四個治理階段,幫助資料生產者打破孤島,實現低成本資料開發,幫助資料管理者做好資產盤點,確保資料質量與安全,幫助資料使用者便捷用數,助力決策分析。

但在現實情況中,許多資料治理的結果通常會面臨失敗,周鑫將其歸結為四個原因:1)治理動作分散,缺乏體系化方法論;2)治理流程複雜,重度依賴人的能力和素質;3)缺乏工具支撐,導致理論與實施脫節;4)無法持續治理,治理策略難以快速調整。

面對以上四類問題,Dataphin 提出了一套以資料標準為中心的資料治理方法論及產品化的落地。其核心邏輯為:聚焦 Data x AI,用中臺方法論構建統一的資料標準,打造企業級好資料,幫助企業形成資料生產、資料消費、行業資料流通的資料要素服務鏈,驅動資料價值的釋放。
“方法論的核心關鍵,在於以資料標準為中心。資料標準貫穿資料整個生命週期,它讓資料治理具備核心抓手,不會漫無目的”,周鑫表示,企業需從核心業務入手,先行試點開展業務梳理與盤點工作,將相關統一納入 DataCatalog,並在此過程中逐步形成對應的資料標準。
標準梳理完成後,平臺即可開展標準構建:透過統一的資料標準,自動實現質量監控與安全分類,保障開發過程規範,阻斷不規範資料開發。同時,統一標準可提升資料的可理解性與細節清晰度,實現資料從生成、開發到消費的全生命週期標準化管理。

“整個治理鏈路就是以資料標準為中心,將傳統的複雜的治理手段,簡化成資料標準的梳理與治理效果的評估過程,資料符合標準的程度越高,整體資料質量也就越好”。
周鑫表示,該方案以資料標準為核心,透過外掛整合、API 註冊和準即時同步等多種方式採集元資料,並統一納入 DataCatalog,結合質量規則和安全策略進行自動識別與治理。這一方法論具備三大優勢:一是體系化,明確治理目標與路徑;二是易落地,藉助一體化工具和 AI 能力,貫穿資料全生命週期;三是可持續,以標準驅動模式便於應對業務變化,有效降低治理成本與複雜度。
許多企業在應用 Agent 時都難免遇到一個難題:Agent 雖然具備一定的智慧和對話能力,但在複雜業務場景中常常“空轉”,無法真正理解業務語境、解決預期的實際問題。
周鑫表示,造成這一現象的根本原因,“在於資料質量偏低或數字化基礎薄弱,導致 Agent 無法有效發揮價值,最終企業只能被迫放棄”。
AI 時代,優質資料至關重要,但“好資料”應如何獲取?AI 又該如何賦能資料治理?
首先,“Agent 在沒有豐富準確的語義知識下,不可能達到可生產使用的準確率”,周鑫認為,企業獲取好資料,需要構建準確且豐富的語義知識體系。Dataphin 針對這一需求,打造了包含元資料、資料標準、資料模型、業務知識四大語義知識體系。企業可以透過採集豐富且統一的元資料,建立涵蓋碼錶、詞根、值域及安全分類分級的標準體系,依託 Dataphin 智慧構建的概念模型、邏輯模型和物理模型,以及對業務詞條和邏輯的高效管理,實現對複雜業務知識的精準對映和應用。

以 NL2SQL 為例,Dataphin 透過引入業務語義,不僅提升了問題泛化能力,還大幅提高了 SQL 匹配的準確率,顯著增強了對自然語言的理解能力。實測資料顯示,在 Dataphin 開放資料共享模型涵蓋的 45 個典型問題中,簡單問題的 SQL 準確率從 70% 提升至 80%,而中等及複雜問題的準確率更是從 10% 躍升至 60%。
其次,企業還需藉助 AI,對資料治理鏈路進行提效。基於 TaskWeaver 改造,Dataphin 構建了具備生產化能力的 Agent 框架,覆蓋研發、治理、資產問答等多個場景,顯著提升了現有流程效率,拓展了 Agent 的應用邊界。
以 NL2SQL 為例,系統可在識別資訊不全時自動發起反問,補全後再繼續處理,確保複雜業務場景下依然具備高理解力與執行準確率。同時,Dataphin 的開放能力不斷演進,從傳統的 API 和資料服務擴充套件至 MCP 模式,支援更靈活的接入方式,適配非固定流程和動態互動等複雜需求。
在智慧找表場景,Dataphin 有效解決了使用者將複雜業務問題,轉化為準確搜尋詞的難題。“引入 AI 後,你可以用業務的語言直接問,比如‘我要做客戶分層’,‘我要用哪張表’,AI 會用大模型去對業務問題進行拆解和泛化,最後找關聯到你已有的全域資產”。

在資料分析場景,Dataphin 透過專輯機制與豐富的語義知識,解決了因語義知識的缺失或混亂,相似口徑和命名干擾、以及海量表格帶來的找表難題,顯著提升了找表的效率與準確率。

在資料治理場景,Dataphin 透過“性別”等複雜欄位特徵識別,解決了正則表示式“不會寫”、“看不懂”難題,取代了傳統人工探查的繁瑣過程,以往需要耗費十幾分鐘的特徵識別,如今只需幾十秒即可完成。

在資料管家場景,資產上架往往涉及表描述、欄位註釋、目錄歸屬、標籤分類等複雜操作,尤其在欄位數量眾多時,人工維護工作量大、耗時長且易出錯。透過引入 AI 能力,Dataphin 支援屬性資訊的智慧生成,可一鍵生成表 / 欄位描述資訊、目錄、標籤等,使人力成本與操作門檻大大降低。

目前,Data x AI 發展仍處於以模組提效為主的第一階段;隨著 AI 對複雜節點的處理能力增強,Dataphin 正在以“智慧工作臺”有機整合獨立模組,重構整體業務流程。“有了 AI 之後,工作臺模式可以讓很少的人,完成複雜的業務,每個環節都有大量 AI 和自動化能力支撐,人們乾的最多的事情是進行確認。”周鑫表示,未來,AI 還將在更多場景中深度參與,從輔助提效逐步向自動化、智慧化方向邁進,推動企業實現資料治理正規化的全面升級。
