阿里大淘系模型治理階段性分享

導讀:阿里大淘係數據體系經過多年發展,透過豐富的資料和產品支撐了複雜的業務場景,在資料領域取得了非常大的領先優勢。隨著資料規模越來越大,開發人員越來越多,雖有阿里大資料體系規範進行統一管理,但是由於沒有在產品側進行有效的模型設計和管控,在模型規範性、應用層效率、通用層複用性等方面的問題逐漸凸顯。計存成本提升、效率降低、規範減弱、資料使用難度變大、運維負擔增加等。為了解決這些問題,我們進行了大淘系模型治理專項,在資料服務業務的同時,追求極致的降本提效目標。
參與團隊:
資料技術及產品部-大淘係數據團隊
&資料技術及產品部-資料安全生產平臺
&計算平臺事業部-DataWorks
&計算平臺事業部-產品與解決方案-DataWorks&PAI產品組

一  資料現狀

為了更好的分析當前大淘系的資料問題,我們進行了詳細的資料分析,首先進行數字化。(整個問題分析有詳細的資料支撐,涉及到資料安全,因此只抽象問題,不展示具體資料細節)。

1  規範性問題

  • 表命名不規範,缺乏管控:隨著資料量增長,大淘系的表出現了大量命名未遵循阿里大資料體系的情況,難以管控。

2  通用層複用性問題

  • 通用層表複用性不高:通用層表下游引用少於2個的數量非常多;
  • 通用層建設不足或通用層透出不足:cdm引用下降,ads引用上升;
  • 較多的ads表共性邏輯未下沉:出現很多ads表程式碼重複,欄位相似度高的情況;

3  應用層效率問題

  • 臨時表多,影響資料管理:出現了很多TDDL臨時表、PAI臨時表、機器臨時表、壓測臨時表等;
  • 通用層表在各團隊分佈不合理:散佈多個團隊;
  • 較多的ads表共性邏輯未下沉;
  • 部分ads表層內依賴深度較深:很多ads表在應用層的深度超過10層;
  • 應用層跨集市依賴問題明顯:不同集市間ads互相依賴,不僅影響了資料穩定性,而且資料準確性也難以保障;
  • 存在大量的可交接的通用層表:不同團隊的通用層資料與大淘係數據混合在一起;
  • 表人員分配不均衡:表owner管理的表數量分佈很不均勻,有些owner名下只有幾十張,有些owner名下有幾千張;

二  問題分析

透過對當前資料問題的數字化,我們發現問題涉及到資料的評、建、管、用各個環節。
評:缺乏一套統一資料評估體系。資料問題的發現以往主要透過專家經驗、開發使用環節發現和離散型的資料分析得到,缺乏一套統一的數字化評估體系。資料量有多少?不同層次的資料分佈如何?表的命名規範性如何?表的複用性如何?表的加工效率和消費效率如何?如何評價資料建設、使用和維護的好不好?好的資料應該透過哪些指標評估出來?
建:基於資料問題分析我們發現:在統一進行通用層構建和治理的時間段,資料在規範性、複用性、鏈路複雜度、使用效率等方面表現較好,但是在沒有進行統一構建和治理的時間,資料在各方面都表現不好。原因在於:我們有一套阿里大資料體系規範,但是我們並沒有一套覆蓋設計、評審、開發、管控、治理的建模開發產品。
管:資料構建完成後後,並沒有有效的對資料進行成本、複用性、效率、健康情況的管理,通常依賴於集中治理、專項治理或推送治理。成本高、迭代慢。同時還存在表管理分佈不均的問題,有些owner承擔了大量的管理和運維工作,資料交接後難以維護,導致資料使用難度高。
用:資料最終是為了使用,透過資料分析和調研問卷來看,普遍存在以下問題:找數難、不會用、不敢用等問題。就導致除了一些非常核心的模型資料外,很多開發者寧願重新開發也不願去花費很大精力去找數和理解資料,造成惡性迴圈。

三  解決方案

針對對問題的分析,我們確定了以下目標:
1、模型數字化:構建一套通用的大淘系模型評估體系,能夠清晰的從多個維度評估當前資料的健康情況,針對問題資料提供改進建議。
2、提效公共模型下沉:定義清晰通用層資料下沉標準,能夠清晰的界定哪些資料應該沉澱到通用層,對於需要沉澱的資料要及時進行沉澱。
3、產品化:透過共建開發一套覆蓋設計、評審、開發、管控、治理的建模開發產品。
4、日常治理:日常監控模型健康情況,並進行治理最佳化。
5、找數提效:透過共建提高資料檢索效率,提高推薦準確度,將核心資料在資料專輯展示。
為了實現以上目標,我們進行了模型治理整體設計:

1  DataWorks共建

DataWorks是基於MaxCompute/EMR/Hologres等大資料計算引擎,提供專業高效、安全可靠的一站式大資料開發與治理平臺。透過與DataWorks團隊進行深度共建,利用大淘系多年積累的模型、開發、運維等資料經驗提供輸入和DataWorks強大的產品研發能力,進行智慧建模、開發助手、資料地圖等功能的升級,實現資料設計、開發、管控、使用全鏈路產品化,解決長久以來的資料問題。

DataWorks智慧資料建模

目前,DataWorks智慧資料建模產品完成了數倉規劃、資料標準、維度建模、資料指標四大產品模組的重大產品功能迭代,具備逆向建模、正向視覺化建模、excel建模、程式碼建模等產品能力,並完成了DataWorks智慧資料建模產品在2021年雲棲大會的新功能重磅釋出。
DataWorks智慧資料建模產品全新發布的核心產品功能主要包含以下內容:
數倉規劃:
  • 支援公共層及應用層數倉經典分層化域方案所需要素(如資料域、資料集市等)的業務自定義;
  • 支援數倉規範的業務自定義,如各層表名規範定義;
  • 支援建模空間,支援設定建模空間與資料研發空間的關係建立,滿足大淘系多業務共享資料規範統籌管理資料模型的需求。
維度建模:
  • 支援數倉已有物理表的、的逆向建模,解決了大淘系已有物理表的冷啟動難題。
  • 支援維度表、明細表、輕度彙總表和應用層表的正向建模,支援視覺化建模、excel檔案匯入模型及程式碼建模三種方式。正向視覺化建模產品功能汲取了大淘系建模同學沉澱的經典建模理論,依託了MaxCompute的優勢,實現了快速複製MC已有物理表的表結構並支援基於已有欄位做維度欄位冗餘的產品功能,此外,彙總表及應用層表可快速引用已建立的指標生成模型表字段。正向建模excel檔案匯入模型將大淘系同學數年來沉澱的經典模型excel模版產品化,滿足部分習慣性excel建模同學的建模需求。正向建模產品功能,極大程度上提升了建模效率。
  • 設計完成的模型,支援模型評審及物理表釋出到MaxCompute、Hologres等五種引擎。
  • 釋出成功的模型,實現了和DataStuido(資料開發)的打通,支援自動生成ETL框架程式碼,資料開發同學只需在此程式碼基礎上補充業務邏輯程式碼即可,該功能在一定程度上提升了資料開發同學的研發效率;
以上產品功能能很好的解決模型建設規範性和提效的目的。
數倉規劃
維度建模

開發助手

開發助手可以在程式碼開發中進行許可權提醒、釋出管控、臨時表自動構建等。

2  模型分

模型分打分邏輯

模型分大盤

我們將模型分評估在內部透過數字大盤的形式展示,並將對應的治理建議透過治理跳轉的方式直接跳轉到相應的產品頁面進行操作。
為了更好的實現複用,模型分支援快速配置接入,只要提供project清單即可透過修改配置快速接入對應BU的資料,產出表級別、owner級別、BU級別模型分及治理動作。
模型大盤的治理項使用了全鏈路血緣和標籤能力,可以比較精準的實現針對性治理。

3  找數提效

找數提效方案:
目前,資料地圖上線了團隊常用表、猜你會用、熱門瀏覽、熱門讀取、資料專輯、搜尋最佳化、表說明升級等,表說明功能已完成升級;資料專輯的多人協作維護、展示和修改收藏備註釋出、專輯增加使用說明功能。對於找數、用數、資料維護具有重要的意義。
【搜尋&推薦】搜尋結果過濾增強
  • 搜尋結果左側過濾條件透出高頻使用條件供使用者選擇,提高篩選效率和搜尋CTR。
  • 恢復欄位搜尋功能,搜尋過濾支援按照環境過濾。
【內容&組織】表說明功能升級
  • 升級表使用說明編輯器為語雀編輯器,支援匯入語雀內容,來幫助解決口徑問題
【內容&組織】資料專輯
  • 資料專輯提供管理員功能,支援多人協作維護。
  • 加入專輯支援展示和修改收藏備註。
  • 個人專輯詳情頁中,支援透過表的描述和收藏備註進行搜尋。
  • 專輯增加使用說明功能
【內容&組織】資料地圖與DataWorks資料打通
  • 支援在地圖中標識表是模型表、展示出表的模型資訊。
1)搜尋推薦
2)資料專輯
資料專輯中將核心表集中展示,可以有效實現核心表的查詢和使用。
3)專輯說明
將結構化的知識集中管理,支援語雀知識匯入,更好的管理和維護資料。
4)資料百曉生
將資料知識進行演算法處理,透過機器人問答實現找表、用表等。為此我們結合內部機器人產品構建了智慧答疑機器人。

四  思考總結

經過FY22大淘系模型治理專項,透過大淘系內部開發、與DataWorks團隊&資料安全生產平臺共建,實現了以下重要能力:
  1. 模型評估體系:設計並定義了大淘系模型評估體系,從多個維度實現了資料健康度的評估和表級別的治理建議。
  2. 智慧建模:與DataWorks智慧建模團隊合作,上線了數倉規劃、維度建模等重磅產品,實現了維度表、明細表、輕度彙總表和應用層表的正逆向建模。
  3. 資料地圖升級:升級了搜尋推薦、資料專輯、表說明等重要功能,極大的提高了找數、用數、管理資料的效率。
  4. 協作規章制度:定義了準通用層下沉規範、協作規章、交接流程、新人培養機制等清晰的制度,提供清晰的制度保障。

五  後續規劃

目前,大淘系模型治理已經取得了非常好的階段性成果,在產品共建、模型分評估、找數提效方面都有很好的效果產出。但仍然存在一些未解決問題:
  1. 統一架構和規範難保障:各業務對阿里大資料體系規範的理解程度不一致,集團資料架構和規範的統一難以保障;
  2. 業務通用層比較薄:歷史背景之下,各業務通用層建設比較薄弱,新架構下業務效率和口徑存在風險;
  3. ADS層持續增長,複雜度難管控:阿里大資料體系規範缺少對應用層的規範,ADS與通用層的邊界劃分不清晰,ADS的複雜度難以控制;
  4. 缺乏有效管控:在資料開發與運維層面,阿里巴巴沉澱了大資料體系規範不斷與資料平臺融合,但是部分標準無法強制執行與資料平臺進行整合。資料治理上,當前資料無法有效識別資料表是否無效,導致研發對資料表不敢下、沒精力下;
  5. 資料建設和使用尚未完全打通:當前資料開發和資料使用尚未完全實現資料打通,定義的模型、開發的資料未在資料地圖中有效的實現透出和管理。
下階段將針對尚未解決的問題進一步深入解決:
  • 大淘系模型架構
我們會針對當前存在的架構問題進行升級,從架構原則、設計規範、開發規範、運維規範、治理規範、共建機制等方面進行方法論的升級,以更好的適應當前階段的資料研發現狀,切實的從架構層面為降本、提效提供有效保障。
  • 智慧建模
繼續與DataWorks團隊共建,進一步提高通用層、應用層開發效率,從產品層面提供保障。
  • 資料地圖
  • 官方專輯快速接入:當前官方專輯構建需要專人進行配置和維護,後續可以考慮降低接入成本,下放到各個團隊進行自主接入和維護,提升資料專輯的豐富度和易用性。
  • 進一步打通資料開發和使用環節:將智慧建模的資料與資料地圖進一步打通,實現核心模型的快速篩選和透出。
  • 多角度提升表查詢和使用的能力:從表說明、表答疑、資料知識提取等方面實現對找表、用表、表答疑的簡易度提升,結合文字演算法、機器人等技術和產品能力,實現資料知識的智慧生成。
  • 開發助手
  • 開發助手在表推薦和表管控方面可以進一步升級。
  • 大淘系通用層評估體系升級
  • 針對當前的模型分加入模型血緣相關的資訊,做厚大淘系通用層,為業務提供更好的通用層資料支撐。
  • 表自動化下線:實現模型、表、服務的自動化下線&專家經驗下線,提高資料下線效率,降低人工介入成本。
DataWorks智慧資料建模產品幫助文件:https://help.aliyun.com/document_detail/276018.html

雲效DevOps全家桶評測火熱開啟!
雲效產品禮包、千元天貓超市卡,雲效DevOps全家桶評測火熱徵集中,快來參加吧。免費用雲效全套功能,更有資源包、貓超卡等你贏取,快來加入雲效DevOps全家桶評測。點選閱讀原文參加評測!

相關文章