AI來了,雲原生更穩了

不瞭解AI的時候,往往會將其視為洪水猛獸,因為AI確實具有顛覆一切的巨大能量;但是當你慢慢接近它、擁抱它甚至嘗試駕馭它,你會發現AI如同其他許多新技術一樣,都需要紮根的土壤、生長的養分和成熟過程中適宜的環境等。
“雲原生是AI的重要承載。”青雲科技雲原生產品負責人於爽舉例說,“英偉達的整個技術棧就是圍繞著Kubernetes雲原生架構構建的,並沒有創造出一個新的軟體平臺將硬體能力變現。許多第三方市場機構的報告也揭示出,AI應用服務底層的承載方仍以雲原生和Kubernetes為主。無論技術如何變化,‘最接地氣’的還是雲原生相關的整個技術棧。”
雲原生化步步為營
回顧歷史,2014年,Kubernetes專案啟動,有效推動了雲原生技術的發展。2015年,雲原生計算基金會(CNCF

)的成立,進一步加速了雲原生技術的普及。目前,從全球範圍來看,雲原生技術的應用差異較大。在整體上,北美與歐洲的容器使用率領先亞洲。在中國,隨著雲計算的大規模普及,許多企業的雲原生專案也在快馬加鞭。

於爽表示,在中國,雲原生應用的普及程度要區分不同地區、行業和企業來看。金融行業是走在前列的,很多大型銀行的核心業務、資料庫資產都已經全面Kubernetes化。在製造行業,一些新能源電池的製造商以Kubernetes為底座,輕鬆實現了運維標準化。相對來說,政府和學校在雲原生化方面稍顯滯後。不過隨著AI浪潮的興起,一些高校也加快了從傳統虛擬化向雲原生化邁進的步伐,應用雲原生架構支撐大量的AI

訓練和推理任務。

面對不斷湧現的AI需求,青雲科技將如何最大程度地發揮雲原生技術的優勢呢?於爽提到:“青雲科技有一支專門的智算團隊,聚焦相關的使用者需求調研和產品開發。從雲原生的角度,我們基於KubeSphere LuBan為智算團隊提供相關的支援支撐,主要是為了更好地保障AI

應用的業務連續性。”


那麼,AI需求的出現,到底對雲原生特別是Kubernetes的應用提出了哪些新的要求呢?以時間節點來劃分,大約2023年以前,在標準的Kubernetes之上增加一層管理能力,以及像微服務、敏捷的業務場景能力,基本就能滿足60%以上雲原生客戶的需求。但是進入AI時代,很多客戶需要對複雜的工作負載進行管理。因為AI的工作負載比起在Kubernetes上執行一個Web應用或者一個後臺應用要複雜得多。“AI應用的排程和串聯十分複雜,這對底層雲原生產品的後臺管理能力等提出了更高要求。”於爽介紹說,“針對客戶在排程方面提出的新需求,我們只要在LuBan上增加一個與排程任務相關的擴充套件元件即可解決。LuBan提供的可插拔的方式既保證了KubeSphere

本身的簡潔和輕量化,又讓其功能擴充套件變得更加靈活,更好滿足不同客戶的複雜需求。”

KubeSphere是青雲科技2017年開始立項,並以開源形式開發和運營的一款容器管理平臺。今天,不管是從社群活躍度、產品的豐富度還是使用者數量等方面來衡量,青雲KubeSphere都可以與市場上主流的開源容器平臺如OpenShiftRancher

等媲美甚至抗衡。

2024年是青雲KubeSphere加速“下沉”至行業的標誌性一年。越來越多的銀行、保險公司將其內部結算、保險案例處理等核心業務放到KubeSphere平臺上。比如,民生證券就採用了青雲KubeSphere,並有意在其子公司進行更大規模的部署應用。讓於爽既感到意外又非常興奮的是,像甘肅銀行、蘭州銀行等也都在深入使用雲原生應用,並且是一步到位,將最關鍵的業務部署在KubeSphere

上。另外,山東某個還不通火車的縣城裡的客戶也要求青雲科技派技術專家去做雲原生技術應用的培訓。

另外,在海外市場的拓展上,青雲科技也在持續發力。舉例來說,青雲科技在土耳其的合作伙伴GENCUBE已經將KubeSphere企業版交付給土耳其機場。東南亞的許多國家,如越南、馬來西亞等也有大量使用KubeSphere開源版本的使用者。

以不變應萬變

雲原生的需求是千變萬化的。每一個新需求的產生,都意味著不同的業務場景。但是,青雲KubeSphere產品團隊的人數是有限的,技術人員掌握的知識和經驗也是有限的。面對不斷增加的需求,KubeSphere

將如何應對?

青雲KubeSphere以不變應萬變,靠的就是LuBan這一核心。因為LuBan的存在,KubeSphere真正成了一種雲原生的作業系統。就像蘋果iOSWindows作業系統一樣,任何生態夥伴的技術都可以無縫動態地接入KubeSphere。基於LuBan這種外掛式的開放架構,不管是第三方的介面、按鈕,還是第三方的後臺API,都可以在KubeSphere平臺上實現熱插拔。KubeSphere無需為某個客戶定製具有特定功能的特殊版本,而只需將客戶需要的某種能力變成一個外掛,動態嵌入KubeSphere

即可,以實現高效、低成本的產品開發迭代,並很好地適配不同應用場景。

“基於KubeSphereLuBan

開發的擴充套件元件可以是青雲科技的,也可以是生態夥伴的,並且都能在任何雲原生基礎設施上執行起來。”於爽表示,“這樣一種友好的、非繫結的、中立性的方式,利人利己。這也是新時代雲原生最經濟的合作方式。”

截至目前,包括第三方夥伴以及個人開發者上架到KubeSphere中的擴充套件元件已超過40

個。這有點像“組團打怪”。雲原生的需求層出不窮,僅靠青雲科技一家是不能完全覆蓋的,很多複雜的場景必然要求青雲科技與生態夥伴一起解決,互惠共贏。這也是經過多年實踐,青雲科技摸索出的一條最適合自己的,同時又能實現差異化的雲原生產品的商業化道路。

據於爽介紹,青雲科技的很多產品都在向LuBan架構遷移。比如,青雲科技的智算產品就是基於LuBan架構開發的,其很多能力都是複用LuBan

提供的即時能力,包括租戶管理、可觀測等,實現了降本增效。

2024年,KubeSphere開源版本與企業級版本都在持續升級,不斷增加新的功能。另外,基於LuBan架構,EdgeWize v3.0優化了邊緣計算功能,提供可迭代、融合的場景解決方案,幫助使用者構建開放、易用、智慧的雲邊協同平臺;WhizardTelemetry可預測平臺v1.1.0新增了GrafanaGrafana Lok擴充套件元件、日誌告警、企業微信群機器人通知支援、跨叢集Pod查詢、EdgeWize監控適配、OpenSearch自定義索引和Calico CNI日誌收集等,全面提升了平臺的效能與靈活性;KubeSphere DMP v1.0同樣得益於LuBan架構,實現了多型別資料庫跨雲部署、運維、觀測與安全保護,構建起資料管理生態閉環,助力客戶實現資料庫即服務(DBaaS)。
建得好還要用得好

談到未來青雲科技雲原生產品的發展規劃,於爽歸納了以下三個方向。

第一,實現更好的可觀測性。強大的可觀測能力可以協助客戶及時地發現很多潛在問題,特別是有益於降低資料中心的運維成本。未來,雲原生的計算資源會持續增加,為了讓Kubernetes

跑得更穩定更安全,就必須不斷提升雲原生產品的可觀測。

據於爽介紹,以前的KubeSphere v3.3版本專注於異構的傳統計算基礎設施的可觀測,即CPU這類傳統計算資源的可觀測。隨著智算需求的崛起,KubeSphere在可觀測方向上將更加重視對AI基礎設施和AI應用的可觀測,以及不同異構硬體包括GPUDPUNPUAI

整合設施的可觀測。面向新一代的智算雲提供相應的可觀測能力,青雲科技在與時俱進。

提升可觀測能力,仍存在一些技術瓶頸。比如,隨雲原生應用規模的擴大,從500個節點擴充套件到1000個節點,部署規模的增加會提升可預測的複雜度。再比如,需要觀測的IT環境日新月異。面對各種新的硬體、不同廠商自己的監控指標、驅動,為了實現可觀測,就必須更好地相容、更深刻地感知這些產品、系統,並且要用一種更輕量的方式實現。KubeSphere

的可觀測能力在擴充套件性和相容性上也有很好的設計。

KubeSphere的可觀測能力在4.0可插拔架構改造後,將逐漸統一在 WizTelemetry可觀測平臺下持續迭代演進。全面改進現有功能(包括監控、告警、日誌、審計、事件、通知)、使用者體驗的同時會陸續新增符合OpenTelemetry標準的鏈路追蹤、基於eBPF的網路可觀測、FinOps

成本管理等擴充套件元件,使用者可以自主選擇安裝所需要的擴充套件元件,構建自己的可觀測體系。

第二,各類不同的基礎設施,包括硬體的、軟體的,還有公有云、私有云,如何實現跨基礎設施的叢集管理是現實需求。“對於混合多雲環境來說,雲原生是必然的選擇。”於爽表示,“現在,任何的混合雲環境預設都是採用Kubernetes

,除非有一些應用不能容器化。”

第三,更好地支援邊緣AI。資料中心的計算量是可以估量的,但是邊緣計算的想象空間是無限的。在AI出現後,具身智慧、自動駕駛等進一步擴充套件了邊緣計算的場景。於爽表示:“未來,我們將在邊緣AI方面投入更多精力。”
往/期/回/顧
從科技賦能到價值引領,東莞證券可進化的信創雲建設啟示錄“智算”雄起 | 智算作業系統要“頂天立地”


相關文章