念好生成式AI的“資料經” 2025-04-21 19:41 雲數智觀察 新的一年到來了,Cloudera大中華區技術總監劉隸放也將步入工作後的第25個年頭。“這麼多年來,我只做了一件事,那就是‘資料’。”劉隸放如是說。作過軟體開發、系統維護以及資料分析,在Cloudera才讓劉隸放真正釋放,如魚得水。 新的一年到來了,Cloudera大中華區技術總監劉隸放也將步入工作後的第25個年頭。“這麼多年來,我只做了一件事,那就是‘資料’。”劉隸放如是說。作過軟體開發、系統維護以及資料分析,在Cloudera才讓劉隸放真正釋放,如魚得水。 做好資料這篇大文章 2024年11月22日,國家資料局向社會公開徵求《國家資料基礎設施建設指引(徵求意見稿)》意見。意見稿中提出,到2029年,基本建成國家資料基礎設施主體結構。從國家政策的角度看資料的應用與發展,就是要打通資料流通動脈,暢通資料資源迴圈,促進資料應用開發,夯實數字經濟發展基礎,為數字中國建設提供有力支撐。 站在企業的角度,資料是實現業務創新和高質量發展的源動力。只有抓好從資料的生產、應用、儲存、分析直至銷燬的全生命週期,才能充分釋放資料的潛能,讓企業這架機器高效、持續地運轉,不斷創造新的價值。 “從生產資料到分析資料,這是一個週而復始的過程。隨著多雲和混合架構成為主流,資料更多地在公有云平臺或私有云平臺上被分配、儲存和分析。”劉隸放表示,“在這一趨勢下,為了更好地儲存和管理資料,資料湖倉一體化被提上了日程。今天,可能90%—95%的資料都集中在資料湖倉中。” Cloudera大中華區技術總監 劉隸放 正如劉隸放所言,上述趨勢既是客戶的需求,也是必須認真面對的挑戰。當資料量持續增加,業務系統變得越來越龐大且複雜時,企業尋找和挖掘資料,並且要保證這一過程的即時性、完整性,以滿足不同場景的需求,挑戰就更加棘手。 企業最想知道,應該如何有效解決上述問題和挑戰?Cloudera的探索與實踐或許可以給企業使用者一些有益的參考和借鑑。 從產品平臺的角度來看,支援混合多雲是必然趨勢。隨著生成式AI的全面生產化和規模化部署,單純的混合雲架構已無法滿足企業需求,用於資料和分析的多雲及混合能力將成為關鍵。Cloudera認為,隨著混合環境的逐步擴充套件,企業的資料將分佈於本地、大型機、公有云和邊緣等多種平臺,而生成式AI模型也需要靈活部署到資料所在之處,以確保資料和工作負載在業務內的無縫遷移,產生高效洞察。 IDC預測,到2026年,50%的中國企業將與雲服務商形成生成式AI平臺、開發者工具、基礎設施的戰略合作,這就對企業資料和成本的管控治理提出了新要求。在這種情況下,如何確保AI提供的洞察資訊既相關又具可操作性,同時滿足最基本的安全性和彈性要求,避免其成為無意義的噪音,成為企業亟需攻克的難題。劉隸放認為,企業需要基於強大的資料管理和多雲策略來訪問、儲存和分析資料,這樣無論資料是在本地、雲中還是在邊緣,都能獲取資料的最大價值。Cloudera混合資料管理平臺融入資料網格(Data Mesh)、資料編織(Data Fabric)技術,並且整合本地與雲資料來源,具備更高的靈活性,支援更廣泛的資料訪問,在保障模型端點安全和治理的同時,賦予企業更強的控制力。 從2023年底大模型市場爆發以來,大模型的開發、迭代就成了熱點。殊不知,大模型的落地應用如果沒有可信的資料,那將是無源之水、空中樓閣。對於企業來說,開發一個大模型,或者直接購買呼叫一個大模型相對更容易一些,週期也更短,而企業資料資產的累積可不是一日之功。一些中國企業從過去的大資料應用到今天的人工智慧應用,之所以舉步維艱,在很大程度上就是吃了沒有豐富的高質量的資料的虧。“人工智慧需要可信的資料。在資料可信的前提下,資料的組織、資料的集中等也至關重要。”劉隸放表示,“為確保資料可信,Cloudera平臺透過MLOps和監控以防止偏差,基於自身平臺的開放性與生態系統(如HuggingFace、Bedrock、OpenAI等)進行整合,並且透過跨平臺的能力實現無處不在的資料訪問。” 為AI打造可信的資料基礎設施 毋庸置疑,AI洪流具有摧枯拉朽的巨大能量,正在改變著各行各業。而與時俱進的Cloudera正高舉AI的旗幟,從為AI提供一個集中化、可信的資料中心的角度,協助企業客戶又快又好地部署其AI平臺。為此,Cloudera與包括NVIDIA在內的廣泛的生態夥伴進行合作,在公有云平臺和私有平臺上提供相應的能力,並進一步打通這兩個平臺,實現跨平臺的訪問。 劉隸放介紹說,從產品的角度,Cloudera擁有三大支柱——加速企業AI落地,實現真正的混合,以及構建現代資料架構。Cloudera平臺的升級和完善都是圍繞著這三個目標展開的。2024年12月,最新的Cloudera 7.3.1版本正式釋出,除了眾多功能的升級以外,該版本最顯著的變化就是開始支援ARM處理器。這也是考慮到,除了滿足AI對於大算力的需求以外,還要兼顧成本與綠色發展。 2024年,Cloudera中國的業績保持了良性增長,尤其是在支援中國企業“出海”的過程中,充分展現了一個全球化企業所具備的市場前瞻性、技術先進性與產品平臺廣泛適應性等優勢,更好地為中國“出海”企業的全球化運營保駕護航。 生成式AI應用將更加務實 談及未來的發展趨勢,劉隸放表示,2025年,生成式AI將從炒作轉變為務實落地。企業在生成式AI的應用上將分化成兩大陣營:一類是已成功應用生成式AI的企業,他們透過成熟應用獲得了顯著成效,比如金融服務機構正逐步從基於規則的欺詐檢測系統向基於模型的系統轉型,推動行業邁向新的發展階段;另一類企業則由於缺乏足夠的資料儲備,難以從生成式AI中獲得相同效益,因此他們將更傾向於採用傳統AI或確定性機器學習模型,以達到提升效率和生產力的目的。 生成式AI的核心價值在於規模化的知識獲取和洞察生成,因此資料質量是確保AI模型成功執行的關鍵。擁有龐大、可信資料的企業將更具競爭優勢。面對生成式AI帶來的挑戰,企業將專注於制定與企業整體目標一致的技術投資計劃,穩紮穩打,步步為營。 未來,AI智慧體(AI Agent)將重塑商業決策。由於AI智慧體可以高效最佳化任務,迅速應對挑戰,並可即時靈活調整,這將促使企業構建事件驅動型架構,支援AI及時響應現實事件,從而徹底改變電信、物流等眾多行業。 “2025年,AI智慧體會有一個井噴式的發展。”劉隸放預測,更多大廠將投入這一領域,建立生態圈,並且將湧現出更多相關的軟體、硬體、方法,以及成熟的行業實踐,企業用AI解決問題的效率和自主性都將大大提高。 Cloudera已經與CrewAI合作。CrewAI擁有一個生態圈,提供了AI智慧體平臺。Cloudera將CrewAI嵌入到了自己的平臺中。劉隸放表示,在金融、製造、醫療乃至更多行業中,將出現更多AI智慧體的成功應用。 往/期/回/顧 從科技賦能到價值引領,東莞證券可進化的信創雲建設啟示錄“智算”雄起 | 智算作業系統要“頂天立地” 開放混合 資料驅動 Cloudera的商業AI佈局 尋找可信AI背後的“資料”之手 資料架構現代化,Cloudera“混合資料”能夠成為定海神針嗎?