AmazonSageMakerUnifiedStudio要“資料和AI在一起”

模型天天變,而唯一不變的則是資料!
今天,各種各樣的大模型層出不窮,使用者可以根據自己的需求選擇最適合的模型,這個過程相對容易。但是大模型、生成式AI如果想真正落地,不可或缺的還是企業私有化的資料,這也是生成式AI時代決定業務差異化的關鍵所在。從這個角度說,企業使用者迫切需要將資料的利用,包括資料的分析、處理、探索、整合等,與各種操作工具結合在一起,形成一個統一的開發平臺,從而更快地進行迭代,同時也能更好地支援AI的開發和應用。
亞馬遜雲科技已經想在了前面,全新的Amazon SageMaker Unified Studio不僅可以使客戶輕鬆查詢和訪問整個組織的資料,而且彙集了亞馬遜雲科技專門構建的分析、機器學習(ML)和AI功能。客戶在Amazon Q Developer的協助下,能夠為各種型別的常見資料用例選擇最合適的工具,以加速資料的處理。
分析與AI正在融合
“當前的趨勢是,資料分析與AI正在深度融合。Amazon SageMaker Unified Studio正是新一代的資料和AI的統一的開發平臺。”亞馬遜雲科技大中華區資料及儲存產品總監崔瑋表示,“未來,企業所有的資料引擎以及AI的需求,都可以透過Amazon SageMaker Unified Studio這樣一個大的平臺來統一完成。”
Amazon SageMaker Unified Studio整合了在Amazon BedrockAmazon EMRAmazon RedshiftAmazon Glue和現有Amazon SageMaker Studio中客戶喜歡使用的一系列獨立的“工作室”、查詢編輯器和視覺化工具,為使用者提供了一個單一的資料和AI開發環境。使用者可以利用Amazon SageMaker Unified Studio,輕而易舉地發現和準備資料、編寫或查詢程式碼、處理資料以及構建ML模型。
藉助Amazon SageMaker Unified Studio中與Amazon Bedrock整合的開發環境(IDE),使用者可以使用Amazon Bedrock精選的高效能基礎模型和工具(例如AgentsGuardrailsKnowledge BasesFlows),快速、輕鬆地構建和部署生成式AI應用程式。
另外,Amazon SageMaker Unified Studio還內建了資料發現、共享和治理功能。分析師、資料科學家或工程師可以快捷地搜尋和找到其用例所需的正確資料,同時應用所需的安全控制和許可權,維護訪問控制,並保護資料的安全。
從去年的re:Invent開始,我們已經可以明顯地感覺到,亞馬遜雲科技致力於為使用者提供強大的原子能力,Amazon EC2、儲存、資料服務、AI推理等的持續迭代與演進就是最好的例子。使用者在藉助這些原子服務去構建自己的應用時,必然會需要一些中間的連線。而這正是Amazon SageMaker Unified Studio的價值所在,即為資料服務和AI推理提供一個很好的連線,為相關原子服務的落地搭建起一座橋樑。
崔瑋表示:Amazon SageMaker Unified Studio在單角色、多引擎的環境,或者多個角色之間需要配合與協作的環境中能夠最大程度發揮其優勢。”
Amazon SageMaker Unified Studio提供了一個高度整合的資料與AI的開發及治理環境,具有簡單、高效等特質。但是這樣一個高度整合的平臺,會不會讓使用者感覺受到“束縛”,不能按照自己的喜好和習慣採用適合的工具?“我們在接觸使用者的過程中發現,很多使用者都有自己習慣使用的數倉、ETL等產品。我們的目的並不是將使用者強行拉入Amazon SageMaker Unified Studio平臺。”崔瑋解釋說,“如果使用者使用的是一個單一的引擎,且工作量不大,業務不復雜,那麼使用者完全沒有必要改變原有的使用習慣。但是使用者在使用工具的同時,還需要資產端進行配合,或者即使是單一角色,卻會用到多個引擎,那麼Amazon SageMaker Unified Studio就是一個非常理想的選擇。”
舉個例子,英國一家領先的銀行NatWest Group為超過1900萬客戶提供服務。它就採用Amazon SageMaker Unified Studio,以一個統一的環境來支援資料工程、SQL分析、ML和生成式AI工作負載等,預計其資料使用者訪問分析和AI功能所需的時間將減少50%,從而可將更多的時間用於客戶創新。
Amazon SageMaker Unified Studio改變了什麼?
說到這,您可能更好奇,Amazon SageMaker Unified Studio究竟是如何幫助使用者加速資料分析和實現人工智慧創新的?
首先,透過Amazon SageMaker資料和AI治理,能夠更好地滿足企業的安全需求。藉助基於Amazon DataZone構建的Amazon SageMaker Catalog,管理員可以使用具有精細控制的單一許可權模型,定義和實施一致的訪問策略,這樣跨團隊的資料工作人員可以安全地發現和訪問經過批准的資料和模型。同時,使用者還可以透過Amazon SageMaker中的資料分類、毒舌檢測(toxicity detection)、防護欄(guardrails)和負責任的AI策略來保護其AI模型。
其次,Amazon SageMaker Unified Studio具有統一的資料訪問能力。Amazon SageMaker Lakehouse基於Apache Iceberg開放標準構建的統一、開放和安全的資料湖倉庫,能夠有效減少資料孤島並統一資料。無論資料儲存在Amazon Simple Storage Service (Amazon S3)資料湖、Amazon Redshift資料倉庫,還是第三方或整合的資料來源中,使用者都可以從單一入口訪問並使用相容Apache Iceberg的引擎和工具進行處理。Amazon SageMaker Lakehouse已與Amazon S3 Tables整合,這保證了使用者能夠使用Amazon SageMaker Lakehouse高效地建立、查詢和處理S3 Tables,既可以使用Amazon SageMaker Unified Studio中的各種分析引擎,也可以使用如Apache SparkPyIcebergApache Iceberg相容的引擎。
最後,全新zero-ETL整合SaaS應用程式,可以快速、輕鬆地訪問SaaS資料。使用者藉助zero-ETL,能夠訪問Amazon SageMaker Lakehouse中的ZendeskSAP等應用程式,以及Amazon Redshift中的資料,用於分析和AI。整合SaaS應用程式的zero-ETL包含資料同步、增量更新和刪除檢測,以及目標merge的最佳實踐。
另外,Amazon Bedrock的功能也已經在Amazon SageMaker Unified Studio中可用,它能夠幫助客戶在受管理的環境中快速構建原型、定製和共享生成式AI應用。Amazon SageMaker Unified Studio還集成了Amazon Q Developer,這一強大的軟體開發生成式AI助手可以更好地簡化資料和AI開發生命週期中的各項任務,包括程式碼編寫、SQL生成、資料發現和問題排查等。
“實現不同業務角色之間的有效聯動和協同,這是Amazon SageMaker Unified Studio為使用者的AI開發環境帶來的最大改變。”崔瑋舉例說,“以前,使用者若想獲取一個真正想要的資料集,可能需要以天甚至是周為單位,但是Amazon SageMaker Unified Studio能夠做到小時級。”
加速AI在企業中的落地,不能只是喊喊口號,而是必須真正瞭解使用者的需求和痛點。使用者需要的是一個一站式的平臺,能夠將各種技術和工具以整合的方式實現協同。Amazon SageMaker Unified Studio的價值就在於,它透過全面的分析功能、一站式的開發環境,以及整合的湖倉架構,真正簡化了解決方案的交付流程,其核心是將分析與AI整合在一起,更高效地解決複雜的端到端問題,並加速創新。
崔瑋表示,新一代Amazon SageMaker希望在保證資料治理、安全和合規的情況下,為使用者提供一個完整、統一的資料檢視,包括資料及AIAmazon SageMaker Unified Studio的推出,為企業的AI應用開發提供了全新的體驗。
客戶需求永遠是第一位的
提供“資料+AI”的統一開發環境,這是亞馬遜雲科技的創新,也會是業界未來的發展方向嗎?事實上,這一話題已經在業內引起了廣泛而熱烈的討論。
崔瑋表示,站在亞馬遜雲科技的角度,最關心的還是客戶的實際需求。如果時間回溯到兩三年前,人們更多傾向於“專門構建”,比如專門構建資料庫、專門構建資料分析等。雖然使用者對這種專門構建的環境非常滿意,因為確實享受到了強大的服務。但是,隨著業務越來越多,而且越來越複雜,讓這麼多服務能夠有效協同,是一個棘手的問題。使用者提出了更高的要求,就是希望擁有一個統一的環境,不管是統一的介面,還是統一的治理。亞馬遜雲科技正是從這樣的客戶需求出發,才打造出了Amazon SageMaker Unified Studio
AI開弓沒有回頭箭,而且AI的應用是一個持續的過程。在未來的發展過程中,一定會有新的需求不斷湧現。就像崔瑋所說,無論是技術還是服務創新,都必須以客戶為中心,隨需而動。

相關文章