一文讀懂:生成式人工智慧對資料治理的影響

已結課!最後的最大優惠!掃碼立享!

來源:資料信任與治理
僅供學習,如有侵權,請聯絡刪除!
引言
隨著人工智慧和機器學習技術不斷推動各行各業的變革,深刻改變了我們的生活和工作方式,有效的資料治理的重要性愈加突出。隨著生成式人工智慧(Generative AI,下稱“生成式AI”)的出現,企業在管理資料資產時既面臨著新的機遇和挑戰。本文將探討資料治理與生成式AI的交叉點,分析傳統資料治理模式及其演變,以適應生成式AI的需求。
本文根據英國IBM於2024年10月釋出的“Impact on Data Governance with Generative AI”一文進行了翻譯和整理,以下為文章的核心內容。

什麼是資料治理
資料治理是一個應用框架,它將管理、業務、技術流程和技術相結合,確保資料的準確性、可靠性和安全性。資料治理涵蓋了從資料建立到最終處置的整個生命週期,旨在瞭解其意義、控制其使用並提升其質量。透過建立對資料的信任,資料治理使組織能夠做出明智的決策、遵守相關法律法規並維護資料安全。要實現這些目標,組織需要制定內部資料標準或政策,明確資料的收集、儲存、訪問、處理和處置流程。
商業利益
企業在加強 “資料驅動”方面面臨的最大挑戰包括:
  • 資料缺乏信任。
  • 難以找到和訪問目標資料。
  • 各種解決方案各自為政,導致業務成本重複。
  • 資料來源缺乏可追溯性。
  • 缺乏合適的技能(如:資料科學、架構等)。
當資料具備一致性、可訪問性,並得到妥善管理時,企業就能實現最大的商業利益。相反,若未能有效管理資料,包括瞭解資料的質量、歷史、合規性、安全性以及使用者同意等方面,風險就會增加。這些活動構成了資料治理,它不僅能夠提高效率和生產力,還能確保資料的可信度,從而助力企業獲得更好的商業利益。
資料治理的目的
資料治理的主要目的是實現以下目標:
共同理解:為跨組織團隊提供一個有生命力的框架,確保團隊對資料的定義、資料擁有者以及資料處理方式有共同的理解。
高質量資料:提供符合高度完整性、準確性和一致性指標的高質量資料。
資料剖析:根據資料的準確性、一致性、統計內容和時效性等因素瞭解資料。
隱私與合規:政策、標準和程式推動技術和操作行為,確保系統符合政府和行業法規對敏感資料和隱私的要求,如《通用資料保護法》(GDPR)、《美國健康保險便攜性和責任法案》(HIPAA)、《支付卡行業資料安全標準》(PCI DSS)、《新興人工智慧法規》等。不遵守這些法規會對企業造成嚴重影響。
促進反饋和改進:提供機制以獲取人工和技術層面的反饋,改進流程、政策、標準和技術控制,從而不斷提升資料的質量和安全性。
降低運營成本:資料治理可以減少資料處理和儲存的高昂成本,避免資料集和資料工作流程的重複,並推動系統建設採用統一標準,進而降低系統的總體運營成本。
支援高階分析和AI的使用:確保資料的高質量,以支援高階資料分析、機器學習和生成式AI計劃。透過建立資料的信任,提升分析和模型的信任度,推動模型的廣泛應用。
監控人工智慧的使用:對機器學習和生成式AI的應用進行有效監控,能夠及時發現可能導致聲譽損害、錯誤行為、不當建議或合規問題的風險。資料治理在監控和應對這些問題方面發揮著關鍵作用,幫助在問題發生前或發生時做出及時反應。
組織資料治理
必須認識到,各組織在運營模式、目的等方面存在很大差異。因此,所採用的資料治理模式也會有很大不同,某些組織可能會更加註重某些特定要素,而對其他要素的發展則相對薄弱,甚至可能完全不發展。
雖然各組織採用的資料管理方式各不相同,仍然存在一些共同特點,這通常被稱為“傳統資料管理”,如下圖所示。
資料治理管理
從執行角度來看,資料治理需要紮根於資訊治理委員會(Information Governance Council,下稱“IGC”)中的高層領導,並透過日常的資料戰略委員會(Data Strategy Board,下稱“DSB”)來落地實施。通常,高階責任管官(Senior Responsible Officer,下稱“SRO”),如首席資料官(Chief Data Office,下稱“CDO”)或資訊長(Chief Information Office,下稱“CIO”),作為董事會重要組成成員,最終負責組織內的資料使用、保護和管理工作。
由DSB支援的IGC是唯一的資料管理機構,負責制定、通知、監控、執行、建立、更新和廢止與資料相關的政策、程式、標準和技術控制,確保這些措施能夠滿足業務需求。
資訊管理委員會
IGC由CIO領導,負責發起、批准和推動戰略性資訊計劃和政策。該委員會的主要職責是確保資料治理在組織內的使命得以實現。
資料戰略委員會
DSB負責處理與資料有關的日常問題,並對這些問題做出回應。DSB根據資訊治理委員會制定的戰略目標,負責實施和監督組織內的資訊管理任務,確保資料治理目標的順利推進。
IGC和DSB代表
IGCDSB將有適當的代表,從使用者、業務、資料、安全和技術等角度提供意見。這些代表通常包括以下角色:
首席架構師:首席架構師負責監督組織平臺的架構、工程設計以及相關支援工作。高階和初級架構師在資料管理中也發揮著重要作用,尤其是在資料保管人角色中。首席架構師確保架構設計、元件選擇和最佳實踐遵循統一的標準。
資料所有者:資料所有者通常由高階管理人員或決策者擔任,負責根據其掌握的資訊做出資料相關的決策。資料所有者決策的目標是滿足特定業務職能或更廣泛的組織需求。雖然資料所有者通常不參與資料的日常管理,但他們會將相關的操作職責委託給資料管理員。資料所有者的責任不能完全下放。
資料管理員:資料管理員負責資料的管理,包括維護資料的質量、定義和語義,以及協調不同業務部門之間的資料標準和業務規則。資料管理員按照資料所有者的委託,處理與資料相關的具體事務。
資料保管人:資料保管人通常屬於技術團隊,他們與資料所有者、資料管理員及資料安全團隊緊密合作,負責定義資料安全和訪問控制程式,管理資料的訪問許可權,確保資料的日常處置(如雲資料儲存管理),並提供備份和災難恢復功能。
平臺和資料安全:IGC通常會有首席安全官的代表,DSB則有高階安全主管的代表。這些安全專家將從安全形度為整體資料治理框架提供支援,確保各種安全方法和相關標準得到遵守。在DSB層面,他們負責安全團隊的日常工作,確保合規性並處理任何安全事件。
應用資料治理
資料治理的政策、標準和程式決定了整個資料平臺的設計、資料儲存和資料處理流程,涵蓋了從設計到執行,再到退役的各個階段。
以下將介紹如何透過資料治理技術控制(由政策、標準和程式定義)來提高資料信任。
這些控制措施不僅適用於資料平臺的設計和構建,還適用於資料整個生命週期。
平臺設計、工程與部署
如今,平臺的應用程式、應用程式碼、基礎設施等幾乎每個元件都可以透過指令碼進行部署和配置。指令碼、程式碼以及其他工件可以作為資產進行儲存和版本管理。
DevOps工具使得自動化、可重複的解決方案部署、更新和測試成為可能。透過遵循標準和策略,並藉助反饋機制進行建立、審查和修訂,可以將這些資產提升至完全支援組織資料治理目標的資料治理狀態。
平臺安全
資料安全貫穿整個平臺的設計和生命週期管理,包括靜態資料和線上資料的加密、強大的基於角色的訪問控制模型等。在資料治理框架下,平臺和資料的安全標準、政策和程式對架構師、支援團隊、安全團隊等的設計、運營和監控行為進行指導和控制,確保組織的整體資料安全得到有效保障。
資料治理技術控制
嵌入資料平臺的治理技術控制可以幫助監控資料流動、記錄並提供對資料技術元資料的訪問、監控、提升資料質量、跟蹤資料處理等。平臺數據治理技術控制通常包含以下形式
資料流向:跟蹤資料流動路徑和資料處理的相關指標。
資料質量:根據一組預定義的規則對資料進行質量檢查。
資料剖析:生成描述資料本身的統計指標。
業務術語表:儲存用於描述資料及其處理過程的業務術語和定義列表。
資料目錄:儲存有關欄位、資料型別、描述以及其他元資料(如所有者、位置等)的列表。
質量校正:透過演算法糾正資料中的錯誤。
資料轉換:執行資料格式轉換或進行輕量級資料值轉換的基本演算法。
資料標記:在資料攝取時為特定資料集新增標記,以便後續進行回滾、轉換或刪除。標記內容可以包括攝取時間、資料所有者、資料來源、管道、安全憑證等資訊。
需要注意的是,實際部署的具體內容會根據使用場景和組織的資料處理需求有所不同。
資料生命週期管理
資料生命週期管理(Data Life Cycle Management,下稱“DLM)涵蓋了資料從建立、收集、儲存、處理、共享到使用的各個階段。資料的狀態可能會因不同事件發生變化,例如:要求銷燬資料、將資料遷移到不同的系統、使用許可權到期,或僅僅是資料透過攝取管道或處理操作的一部分而發生變化。
資料的狀態可以透過其在平臺中的物理位置、資料目錄中的屬性、特定的資料標籤等進行識別。每個階段的處理需要根據資料治理策略和程式的規定進行,以確保資料能夠順利進入下一個狀態。
資料治理確保資料在整個生命週期中的各個階段都得到適當的管理,並執行DLM,確保平臺的設計、升級和銷燬符合相關要求。
平臺監控
平臺監控為支援團隊提供了早期預警機制,幫助預測資料和處理過程中可能出現的問題,最佳化平臺的執行、容量和需求管理,並有效控制費用。透過使用資料治理平臺技術控制進行資料監控,如果源提供商未能遵循質量規則,或者平臺在早期階段出現問題,系統會向資料保管員發出警報。資料保管員將進行調查,並根據需要對標準、流程和程式進行反饋和調整,以確保平臺的穩定和合規性。
傳統資料治理需要改變什麼? 
多年來,傳統資料治理髮揮了良好的作用,但是,但隨著生成式AI的發展,它需要做出一些調整和擴充套件。傳統資料治理具有以下特點:
主要關注結構化資料:傳統資料治理系統主要聚焦於結構化資料的管理。然而,為了支援生成式AI,資料治理需要擴充套件到支援非結構化資料,如影像、影片、音訊和文字等大規模資料。這要求資料治理框架能夠處理並管理不同型別的資料。
缺乏對模型管理和模型歷史的支援:傳統資料治理對於模型的管理和模型歷史記錄(包括生成過程、配置、流程、資料來源、模型評估和測試等)的支援相對有限。生成式AI模型涉及複雜的資料處理過程,需要清晰的模型譜系或樹狀結構,以追溯每個模型的生成和演變過程。
資料準備步驟的追蹤不足:傳統資料治理通常依靠DLM、資料譜系和程式碼版本控制來追蹤資料準備步驟。然而,傳統方式可能未能充分記錄每個步驟的詳細資訊,特別是在生成式AI模型的開發過程中。這些步驟可能在模型中引入不必要的人工製品,或者存在資料質量問題。因此,資料治理需要更好地記錄和追蹤每個資料準備步驟的詳細資訊,包括程式碼、處理順序和使用的資料。
什麼是生成式AI?
生成式AI是人工智慧的一種,它可以根據使用者的提示或請求建立原創內容,如文字、影像、影片、音訊或軟體程式碼。生成式AI依賴於被稱為深度學習模型的機器學習模型,這些模型模擬了人腦的學習和決策過程。其工作原理是透過識別和編碼大量資料中的模式和關係,利用這些資訊理解使用者的自然語言請求或問題,並根據這些理解生成相關的新內容。
訓練生成式AI模型
訓練一個生成式AI模型,第一步是建立一個深度學習模型或基礎模型,並在大量資料的基礎上進行訓練。對這些資料進行攝取、準備和標準化,以構建一個包含引數、計算和資料的神經網路。
傳統平臺主要關注結構化資料,而生成式AI則側重於處理多模態資料。這意味著,資料治理的範圍必須涵蓋支援多模態資料的政策、流程和程式,特別是對於非結構化資料(如文字、影像、影片、音訊等)。這給資料質量檢查、資料剖析、資料歷史/起源追蹤等工作帶來了新的維度。
例如,在採用新的事實檢查技術時,可能需要進行多源驗證。此外,資料治理還可以提高模型輸出的可解釋性,幫助追溯模型的建立過程(包括使用的資料和生成步驟),並識別影響輸出結果的關鍵因素。
這些多模態資料最終可能存在於不同的環境中,比如嵌入或編碼在模型本身中,但基礎模型也可以使用其他外部資料來擴充套件其能力,從而為特定組織量身定製輸出或提供新的專業領域應用。
調控
為了提高模型的準確性,需要根據具體任務進行調整,常用的方法包括微調和強化學習與人工反饋相結合的方式。
微調是指基於任務的需求,使用特定標註的資料來訓練模型,使其能夠更好地應對預計的提問或提示型別,並對模型進行改進,以便生成符合期望格式和內容的正確答案。
強化學習則透過人類使用者對生成內容的評價來進行反饋,模型可以利用這些反饋進行再訓練,從而不斷最佳化自己的回應。
資料治理在這一過程中起著重要作用,確保資料集、元資料以及人類或系統的反饋能夠正確地記錄和反映模型的歷史變化和脈絡,確保模型調整過程的透明性和可追溯性。
監控與更新
生成式人工智慧模型(與所有機器學習模型一樣)需要持續監控系統和使用者反饋,以定義和評估效能指標,並確定合適的閾值或更新頻率。
外部事件,如監管變化或消費者行為的變化,可能導致用於構建模型的某些資料集失效,從而需要進行更新。資料治理維護的模型和DLM也可能成為觸發模型更新或其他行動的因素。
資料治理還可以為企業選擇和使用的模型型別提供指導。例如,核心基礎模型的製作成本非常高(從1000萬到1億英鎊不等),而檢索增強生成(Retrieval Augmentation Generation,下稱“RAG”)模型則可以在較小、集中的資料集上進行訓練,從而擴充套件基礎模型,提供更準確的響應,並且成本更低。RAG模型還更容易進行調整,以確保組織的時效性,且這一過程可以透過資料治理進行全面追蹤。
RedHat的InstructLab提供了一種非常有效的方法來增強生成式AI模型。InstructLab為模型開發者提供了必要的基礎設施資源,使他們能夠定期為開源授權模型建立更新,而不是每次都重建或重新訓練整個模型。這種方法能夠將新技能整合進模型中,大大節省了時間和成本,確保了組織的時效性,而這一切也可以透過資料治理進行全程追蹤。
傳統資料治理的轉變
那麼,傳統的資料治理應該如何調整呢?簡而言之,在建立和更新模型的過程中,必須確保對各個環節的透明度和可追溯性,同時結合監控機制,確保合規性,並準確地返回結果。
資料治理管理
資料治理管理部門(如IGG和DSB)需要為資料準備、培訓、調整、合規性以及模型的建立和更新生命週期制定政策、程式和標準。這些政策和標準應考慮到資料的變化、模型所處環境的變化以及其他外部因素,從而在出現變化時能夠做出與以往不同的響應。
此外,資料治理管理的反饋機制應進行更新,以確保在制定政策、程式和標準時,能夠有效利用新技術控制手段來監控模型和人工反饋。這樣不僅可以提高模型的準確性,還能增強其可信度,降低業務風險。
在企業內部,還應指派一位SRO作為指定的模型所有者,負責模型的生成、執行和所有相關事務。模型所有者將是資訊治理委員會或資料戰略委員會的成員,參與決策和監督模型管理工作。
模型所有者
與傳統機器學習模型不同,生成式AI模型透過利用知識來建立內容、提供建議,甚至做出決策。生成式人工智慧模型的模型所有者在這一過程中起著至關重要的作用,他們將負責如何管理和調整模型,以確保其能夠提供最佳結果,同時保護組織免受法律風險和聲譽損害。
更新後的傳統資料治理框架
隨著機器學習和生成式AI技術的應用,傳統資料治理框架需要進行演化,以納入這些新技術帶來的變化和新增的要素。下圖展示了這一更新後的資料治理模型。
可以使用以下型別的資料治理控制,以利用並擴充套件傳統框架中的已有控制,並新增新的控制:
模型版本控制
為了建立信任並確保模型的合規性和可追溯性,模型程式碼、資料準備程式碼、測試資料以及用於訓練模型的資料來源應該全部納入版本控制。這樣可以確保在整個開發和應用過程中,每一個版本都能夠準確追溯,任何修改和更新都能被清晰記錄,確保模型的透明度和可審計性。
模型生命週期管理
資料治理模型生命週期管理可以幫助跟蹤模型的整個生命週期,並將其分配到不同的階段,如模型建議、模型設計、資料準備、模型構建、模型訓練與調整、模型測試、模型部署、部署後測試、模型再訓練與調整以及最終的模型銷燬等。
生成式AI模型與其他數字資產的一個重要區別在於,它的“知識”具有時效性。比如,一張數字照片不會過時,始終如實地反映當時拍攝的場景。照片的目的也不會隨時間變化而改變。然而,生成式AI模型需要不斷更新和重新整理,以保持其時效性。這些模型可能受到諸如監管變化、未能達到新的效能指標、使用者反饋、業務需求變化等因素的影響,從而推動模型進入不同的生命週期階段,比如再訓練、調整,甚至是銷燬。
模型指標和評估
在模型的測試和執行過程中,應根據IGC和DSB商定的既定指標進行評估,主要目的是衡量模型的效能、公平性和穩定性。以下是用於監測生成式AI模型的一些關鍵指標:
資料漂移:資料漂移指的是目標變數(關鍵輸入資料)或輸入特徵的統計屬性隨著時間的推移發生變化。透過將模型輸出與歷史資料進行對比(使用設定的指標),我們可以判斷結果是否仍然符合預期的歷史資料。如果發現差異,則可能是由於資料漂移引起的,表明模型需要調整。
模型效能:模型效能指標是在模型訓練過程中使用資料集或測試資料集設定的,用來評估模型的有效性。在模型的整個生命週期內,基於這些指標對模型進行持續評估,確保模型能夠按照預期執行。
模型公平性:模型公平性指標確保模型在做出預測時,不會引入或延續任何形式的偏見或歧視。
模型可解釋性:模型可解釋性指的是能夠清晰解釋和說明模型如何得出特定輸出結果的能力。
反饋:使用者反饋等資訊需要被及時捕捉並納入模型評估過程中,為上述指標的變化提供證據。
模型合規性
如今,生成式AI模型被廣泛應用於檢查文件是否符合法規要求,以及執行其他需要根據政府、行業或其他機構法規進行驗證的任務。
隨著法律法規的不斷變化,許多大型組織都面臨著遵守各種不同法規的影響。保持對法規變化的跟蹤,並及時更新合規性要求,是確保合規的關鍵。
雖然許多合規性檢查仍是手動執行,但現在已經有一些支援自動合規性檢查的工具。這些工具能夠識別和執行最新的法規,並幫助確保組織遵循相關法律要求。
自動化的合規性工具可以在資料治理框架中記錄法規變更,並根據需要觸發模型更新,確保組織能及時響應法規變化。此外,還需要制定合規性衡量標準,以便在模型未達到合規要求時進行標記和調整。
模型風險管理
隨著我們對AI和機器學習模型的依賴越來越高,這些模型的複雜性和風險也隨之增加。
資料治理工具可以幫助最大限度地減少隱私侵犯、版權問題,以及由於不正確的資料導致的錯誤、誤導性或偏差輸出。
此外,資料管理工具可以與測試和監控工具結合使用,在特定指標(如人為反饋、模型公平性、偏差、資料漂移等)超出容忍範圍時設定警報。這樣,組織可以及時收到通知,並根據需要對模型進行重新訓練或更新,以糾正潛在問題。
模型文件
提高透明度有助於增強對模型驗證過程的信任,並且支援人工智慧的可解釋性,尤其是在面對監管者、審計師和消費者時。
"生成式AI護照"這一概念並不誇張,它實際上是為每個模型提供一個詳細的“家譜”,記錄模型所使用的資料來源、處理流程及其演變過程。
擴充套件傳統資料治理功能
為了支援多模態資料,傳統的資料治理功能,如資料標記、資料轉換、資料沿襲、資料分析、資料質量和資料目錄,將得到擴充套件。這意味著需要結合新型別的資料來源元資料、更詳細的資料分析結果(例如情緒分析、特徵檢測等),並能夠處理大規模的資料集。
資料轉換和資料質量
在資料準備和生成過程中,資料轉換和質量需要更加謹慎地處理,以確保內容變化不會影響資料和模型輸出的準確性。每個處理步驟、資料管道、處理程式碼和測試都需要被記錄。這些記錄將成為模型版本控制、模型評估、文件化以及資料沿襲的關鍵組成部分。
平臺監控
現有的監控體系也需要更新,以便能夠使用模型指標(包括使用者反饋等相關反饋)持續評估模型效能。
注意:訓練資料的規模(有時達到數PB)意味著,從實踐角度追蹤每個資料集的變化可能會非常困難且成本高昂。然而,隨著訴訟和版權問題的增多,公眾對於模型的透明度、偏見檢測、聲譽保護和嚴格的模型驗證提出了更高要求。因此,生成式AI的工具包將不可避免地需要具備這種透明度功能。
資料和生成式人工智慧的懷疑論者
資料治理的一個關鍵職能是與資料使用者和相關社群進行溝通。在傳統的資料治理模式中,這一職能通常透過提供資料質量報告、資料分析和資料沿襲記錄來體現,幫助顯示資料的狀態及其來源。
然而,在生成式AI的環境下,這一角色變得尤為重要,因為生成式AI不僅由工具、建立者和顧問使用,甚至有時還參與決策過程。因此,資料治理委員會和模型所有者需要與對生成式AI持懷疑態度的各方進行溝通,並明確指出哪些場景中不應使用生成式人工智慧。同時,他們還需要根據當前輸出提供主動反饋(無論是人工還是技術性反饋),並提出改進建議。
生成式AI作為解決方案的一部分
生成式AI不僅為組織提供了以前無法實現的機會,利用其資料創造新的價值,它還可以成為解決方案的一部分,幫助自動化許多常規的流程,否則這些流程將完全依賴人工輸入。企業級資料治理的一個主要障礙是,由於時間承諾和組織結構的變化,導致使用者採納效率低下,因此,儘可能利用自動化的好處是非常有意義的。
生成式AI可以支援資料治理的多個關鍵領域,具體而言:
資料質量:自動化資料質量檢查,識別錯誤並根據預定義規則驗證資料的準確性。
資料編目和元資料管理:自動化資料目錄的建立和管理,便於發現、訪問和理解資料資產,並確保其持續更新。
自動化的優勢在於,它能夠減少人工工作量,從而釋放資源用於更具戰略性的活動,提升資料質量和一致性,幫助企業做出更明智的決策,並確保符合監管要求,從而降低不合規風險。
IBM一直在支援組織利用生成式AI來自動化資料治理流程,之前這些流程只能由人工執行。透過減少整理和更新影像檔案元資料的時間,生成式人工智慧不僅大幅節省了時間,還使得這項工作在大規模企業中變得更為高效和可持續。
結論
如今,我們生活在一個充滿不確定性的時代,許多生成式AI模型建立在未經充分驗證的資料集上,這些模型的生成和調整過程缺乏透明度,導致出現偏見、準確性不足等問題。遺憾的是,由於缺乏合適的指標,真實的模型狀態往往不為人知,從而給消費者帶來風險,這可能對消費組織的聲譽和運營產生負面影響。
為了應對這些挑戰,市場上已經湧現出一些有效的工具。例如,IBM Watsonx.data Governance 提供了強大的資料治理功能,能夠有效解決模型風險、合規性以及模型生命週期管理問題。
此外,RedHat的InstructLab進一步降低了生成式AI模型的成本和更新週期,使得這些模型能夠保持業務的時效性。在強大的資料治理框架的支援下,企業能夠更好地增強對生成式AI技術的信任和可控性。
除了工具的應用,資料治理框架本身也需要不斷發展,以應對本文所描述的挑戰。
那麼,您的企業準備好迎接這些變革了嗎?
原文來源:
1. Mark Restall ,Impact on Data Governance with Generative AI – Part Onehttps://www.ibm.com/blogs/think/uk-en/impact-on-data-governance-with-generative-ai/。
2. Mark Restall ,Impact on Data Governance with generative AI – Part Twohttps://www.ibm.com/blogs/think/uk-en/impact-on-data-governance-with-generative-ai-part-two/。
。。。。。。

全部AI及資料中譯本及資訊請加入


相關文章