從數字化到智慧運維:有哪些價值,又有哪些挑戰?

導讀:運維數字世界。
作者:陸興海 彭華盛 編著
來源:大資料DT(ID:hzdashuju)
我國在2020年年底釋出的“十四五”規劃建議中6次提及“數字化”,對政府、數字經濟、數字中國、金融、服務業、公共文化等不同方面均提出了要求,其中著重提到要發展數字經濟,推進數字產業化和產業數字化,加強數字社會、數字政府建設,提升公共服務、社會治理等的數字化和智慧化水平。
可以說,“十四五”規劃建議的核心就是數字化,而數字化運維是數字化必不可少的環節,甚至是最重要的環節—數字化系統的建設只是第一步且為一次性的,而運維是全天24小時的,是每時每刻都不能缺少的,這印證行業的那句經典表述:“三分建設、七分運維”。
而當相對短暫的系統建設完成後,轉移到漫長的運維與運營階段—所謂“建轉運”發生時,數字化的下一站就來臨了。當然,我們看到,當前我國數字化浪潮進展到“建轉運”的狀態是時間和行業分佈不均衡的,在運營商、金融等強運維/運營的行業,運維早已經是業務發展的必備支撐,而像能源、交通等行業,數字化的滲透率還處於較低階段,上雲率大約只有50%。
但隨著宏觀政策層面的指導、政企自身的業務發展以及技術的推動,在可預見的未來5年內,數字化運維的重要意義以及運維愈發凸顯的價值會不斷在實踐中體現出來——實際上,市場也確實看到了這種改變正加速發生。
01 全球範圍內的數字化時代已至
近年來,數字經濟的發展趨勢越來越明顯,尤其是隨著疫情的影響,加速了傳統產業向數字化、網路化和智慧化產業的轉型和升級。全球數字經濟規模不斷擴大,體量連年增長,根據中國資訊通訊研究院報告顯示,2019年全球數字經濟規模達到39.2萬億美元,佔GDP比重達到41.5%,同比增長5.4%,數字經濟在國民經濟中的地位持續提升。
我國從2015年就開始積極推進數字經濟發展和數字化轉型政策的不斷深化和落地,政府圍繞數字經濟頒佈了一系列重要政策,多次發表指導性意見,在中央層面,數字經濟戰略包括重點支援各產業升級、創新以及可持續發展方針。
“數字經濟”已經連續多年被寫入政府工作報告,在2020年政府工作報告中明確提出要繼續出臺支援政策,全面推進“網際網路+”,打造數字經濟新優勢。
到2020年,我國已經基本建成了數字經濟國省二級政策體系,“十四五”期間,多地陸續出臺相應的數字經濟專項政策,包括數字經濟發展行動計劃、產業規劃、補貼政策等,明確發展目標與實施路徑,將產業數字化作為開啟數字經濟增長的核心方向。
02 數字化世介面臨的崩塌風險
經過30多年的演進,資訊科技不斷進步,系統的架構模式經歷了多次進化,系統的規模發生了“量子躍遷”式的變革,應用系交付依賴於許多網路服務提供商,也越來越依賴於面向網路服務的大型且複雜的生態環境,例如CDN、邊緣計算、DNS、DDoS和公共雲等,在追求高度業務連續性與極致使用者體驗的今天,無論任何時候,任何應用環節的服務中斷或者出現效能問題,都會造成極大的影響,導致重大業務損失,如圖1-2所示。
▲圖1-2 數字世界的崩塌風險
數字世界正在成為物理世界的“映象”。我們可以借鑑物理世界的“物業”概念來預防和解決數字世介面臨的崩塌風險問題。
一方面,物理世界發生的一切,都可能在數字世界重來一遍;另一方面,物理世界的商業演變規律,也可能在數字世界效而仿之。在數字世界中,依然存在著如同物理世界的分工。如果說數字化系統建設類似數字世界的“蓋樓”,那麼數字化運維正如數字世界裡的“物業管理”。
持續的數字化運維是解決崩塌風險的關鍵。
03 IT與運維的價值傳遞和創造
數字化更多是讓客戶成功,所以企業在數字化轉型中,都在講要提升客戶體驗,創造客戶價值,要加快業務創新,再到運營提質增效。
價值是遞迴傳遞的過程,即組織價值傳遞到IT價值,再傳遞到運維價值的過程。這樣一來,我們在做專案時就不是內卷,而是真的圍繞企業發展角度去做,如圖1-3所示。
▲圖1-3 價值捕獲向價值創造變化
價值如何從企業傳遞到IT,再到運維。數字化轉型,企業價值有三個價值:
  • 提升客戶體驗,創造客戶價值;
  • 加快業務創新,重塑商業模式;
  • 提升運營效能,提能增效。
傳遞到IT後變成了“安全穩定、快速交付、技術引領”,如圖1-4所示。
▲圖1-4 企業價值、IT價值和運維價值
IT要實現這三個價值,要提高以下能力:
  • IT風險保障能力:資料驅動的業務連續性保障與風險防控能力;
  • 客戶服務能力:以客戶為中心的“感知、決策、執行”的服務能力;
  • 快速交付能力:利用敏捷、設計思維等方法,推動技術平臺轉型,快速支援業務,交付新產品、新服務的創新能力;
  • 生態擴充套件能力:開放的場景接入,融入或構建生態的能力;
  • IT服務能力:提升IT服務效能,靈活彈性、安全可靠的技術基礎資源交付能力;
  • 運營協同能力:構建高效的數字化工作空間,最佳化資源配置,為運營提能增效。
最後,價值又從IT傳遞到運維,即
  • 增強IT風險保障能力;
  • 加快業務交付速度;
  • 提升客戶體驗;
  • 提高IT服務質量。
從價值傳遞的角度,運維轉型要從公司價值主張出發,傳遞到IT能力,再思考需要什麼運維價值。也就是說,圍繞“提升客戶體驗、加快業務創新交付、為運營提能增效”三個企業的轉型價值,分析客戶及業務價值主張,瞭解客戶與業務的痛點,再從IT團隊“IT風險保障、客戶服務、快速交付、生態擴充套件、IT服務、運營協同”六大能力角度,分析運維在數字化轉型過程中的關鍵價值。
總結起來,運維可以考慮圍繞“提高業務連續保障水平”“提升業務交付效率”“輔助提升客戶體驗”“提升IT運營服務質量”進行。
04 數字化時代的運維挑戰
為了實現運維價值,需要解決運維面臨的一些複雜性因素問題,總結起來有8點,如圖1-5所示。
▲圖1-5 運維價值的複雜性因素
  • 技術架構:業務迭代需求、商業模式創新、技術創新等因素,驅動IT能力的持續提升,帶來新技術與新架構模式的引入,運維在新技術選擇時機、技術成熟度、架構及資料高可用的評估能力、對存量技術架構的影響、新技術附帶的選擇成本等方面面臨挑戰。
  • 應用邏輯:越來越複雜的業務邏輯關係、更細粒度的原子服務、外部監管政策要求的風險控制要求等因素,驅動業務邏輯越來越複雜,呈現動則生變的常態化風險,以及新風險引發的組織人員對應用邏輯知識掌握、產品設計、效能容量評估、故障應急、快速恢復、影響分析、故障定位等能力的新要求。
  • 變更交付:線上感知客戶體驗、更快的產品或服務創新、更快的迭代速度、更短的技術評審時間、更復雜的版本管理、無序的變更計劃等因素,驅動運維進行更全面的技術平臺的建設,交付協同模式的變化,績效考核的調整等新要求。
  • 海量連線:移動化、物聯網、開放平臺等新業務模式的引入,以及全數字化協同網路的產生,帶來海量資料、海量連線、海量終端,每個連線節點之間線上連線質量以及節點的可用性都將大幅增加運維業務連續性保障的範圍,甚至重塑運維業務連續性保障的定義。
  • 操作風險:外部網路攻擊形勢、政策法規要求、應急操作管理、應急處置能力、運維操作性工作量大幅增加等因素,帶來更多的操作風險。應對更多操作風險帶來了更多的自動化工具,自動化工具的引入又帶來新的操作風險,以及人員操作技能下降帶來的風險。
  • 協同機制:DevOps、一切皆服務、應用運營等工作模式的變化,帶來新的協同機制的建立,如何選擇合適時機,有節奏地推進組織、流程、平臺有序建設,考驗運維體系建設者的全域性設計與落地能力。
  • 技能與文化:新需求、新技術、新機制帶來新知識,組織面臨建立新的學習型文化以更快適應變化,以及學習型文化對現有人員角色重塑,能力培養等配套機制挑戰。
  • 外部因素:政策及監管趨嚴、全線上線上監管等因素,驅動IT運維精細化能力不斷提升,需要在現有人力資源基本不變的基礎上,分離更多資源進行精細化能力的建設。
面對上述複雜性,運維組織面臨的挑戰是如何設計一輛不用停車的高鐵,即讓“相對穩定且能較精確預知領域”進化以更加適應數字化時代,並具有持續的穩定性;同時,適應並賦能企業轉型持續探索、試驗、創新,駕馭不確定性的能力,使企業具有持續的敏捷性。
下面是網上流傳的永不停車的高鐵的設計,很有意思,讀者有興趣可以到網上查一下,如圖1-6所示。
▲圖1-6 運維組織的挑戰
我們在做專案時,會遇到一些解釋持續投入的問題。比如財務溝通時會問:“每年都在做運維平臺投入,什麼時候才能做完?”這的確是運維要解釋的問題,筆者的觀點是運維平臺能力是一個持續增長飛輪的適應性系統,如圖1-7所示。
▲圖1-7 建立運維適應性系統的增長飛輪
  • 注:模型來自《技術的本質》與亞馬遜增長飛輪的結合。
能力的提升來源於更高(質)、更多(量)、更快(速度)的需求驅動;為了適應新的需求,運維組織快速引入新技術與新方法;改變通常會產生新的風險;綜合最佳化組織、流程、場景、平臺能力,解決風險,形成適應性能力;建立了適應性能力後,可以支援更高、更快、更多的需求(這個閉環不一定從需求開始,也可以從其他節點開始)。以雲原生架構為例。
  • 需求:充分發揮雲計算的彈性、靈活、自動化優勢,使得工程管理和基礎設施管理變得更加高效和自治,從而將精力集中到業務創新之中;
  • 改變:最佳化應用的開發架構,容器化基礎設施架構建設,加強微服務治理效率;
  • 風險:新技術引入的時機是否合適,新技術不成熟度帶來的風險,原有系統改變帶來的風險,混合雲環境和各種跨雲/跨平臺的運維操作,以及更加複雜的上下游鏈路關係;
  • 適應:運維人員對雲原生能力技術及應用上下游關係鏈路的技能學習,打造雲原生的技術中臺及配套的協同機制,最佳化DevOps流水線的持續釋出能力,雲上的監控能力,針對容器PaaS平臺的監控能力,自動化全鏈路的監控及故障發現能力,混沌測試能力等建設工作,形成一個針對雲原生運維的工作場景。
本文摘編自運維資料治理:構築智慧運維的基石》(ISBN:978-7-111-70475-1),經出版方授權釋出。
延伸閱讀運維資料治理

點選上圖瞭解及購買

轉載請聯絡微信:DoctorData
推薦語:一本書講透“運維資料治理”系統地介紹了資料治理的知識體系和底層邏輯,還提煉了智慧資料運維體系建設的實踐路徑。
關於作者陸興海,雲智慧(北京)科技有限公司副總裁,目前負責諮詢業務。具備十多年網際網路、資訊化以及運維相關領域的產品規劃、設計與研發經驗,是國內IT相關服務領域最早的實踐者和專家之一,同時也是智慧運維國標編寫組核心成員。
彭華盛,超過10年的金融領域運維工作,期間負責參與金融企業運維組織、流程、工具的建設,包括重大業務系統專案與資料中心工程性專案的實施、資料中心標準化工作流程構建、運維工具體系的規劃與研發、數字化轉型研究與實施等相關工作,對金融領域的運維有較全面的理解,探索推進數字化技術與運營轉型雙輪驅動的協同模式。
劃重點👇
更多精彩👇
在公眾號對話方塊輸入以下關鍵詞
檢視更多優質內容!
讀書 | 書單 | 乾貨|講明白|神操作 | 手把手
大資料 | 雲計算 | 資料庫 | Python | 爬蟲 | 視覺化
AI | 人工智慧 | 機器學習 | 深度學習 | NLP
5G|中臺 | 使用者畫像數學 | 演算法 數字孿生
據統計,99%的大咖都關注了這個公眾號
👇

相關文章