頭圖由豆包生成 提示詞:一隻手從電腦螢幕中伸出
開年OpenAI放出了第一個王炸:Operator,定睛一看,這不是早就上線的智譜智慧體 AutoGLM 和 GLM-PC 麼?
早在今年10月25日,智譜便上線了移動端和Web端外掛形式的AutoGLM,它只需接收簡單的文字/語音指令,它就可以模擬人類操作手機和瀏覽器。11月29日,智譜上線了更大許可權的,基於PC的自主Agent:GLM-PC,並於2025年1月23日,更新了1.1版本,並全面公測。
從效果上看,OpenAI展示的一些Operator的應用場景,AutoGLM也完全能搞定,以瀏覽器外掛的形式增強了產品靈活性的同時進一步降低了門檻,更重要的是,完全免費,立省200美元!
比如,AutoGLM能夠自主的在YouTube裡給Operator寫上一句“商業互吹”,或者去X裡給Operator點贊。
亦或是在OpenTable上預訂好餐廳的多工分步處理,AutoGLM都能夠做到絲滑完成。
升級後的GLM-PC與基於Web端的Agent有著更大的許可權以此拓寬能力邊界,比如GLM-PC不僅能夠預訂餐廳,更能在系統中book日曆提醒,來保證準時赴約。
矽星人全面測評了最新版本的GLM-PC,接管整個電腦的許可權後,它不僅能發微信、整理檔案,還可以透過手機遠端遙控GLM-PC進行協作,甚至還在這個一票難求的春運時間,不間斷操作幫我搶到了回家的火車票…
當GLM-PC能夠控制電腦後,會發生什麼?
GLM-PC分為兩種模式:極速模式和深度思考模式,其中極速模式並不支援附件上傳和多輪對話,也就是端到端的text to action,透過手機遠端遙控也僅支援極速模式;而深度思考模式則會展現思考鏈路和邏輯,輸入和輸出內容更加豐富,可執行的指令也更加複雜。
在GLM-PC提供的案例中,有“群發助手”的引導,對話方塊中是一段預設的prompt,本以為要測試的我,忘記了自己的微信中真的有一個名為「相親相愛一家人」的群。於是GLM-PC開始自動操作準備給每一位群友發上一段祝福,哪怕被我緊急攔截,也已經群發了10個人。
一開始,我們用它來執行了一些相對簡單的任務,比如用它來查詢關於OpenAI的最新新聞,閱讀了相關文章後幫我簡單整理一下基本資訊傳回,同時基於智譜清言的語言理解能力,對新聞事件進行了分析。
接著難度逐漸升級,我讓GLM-PC在小紅書上找到推薦的北京粵菜館,GLM-PC在小紅書中搜索了關於北京粵菜館的帖子進行分析,它竟然還聰明地知道閱讀評論,在評論中找到幾家推薦比較多的餐廳,然後跳轉到大眾點評中查了評分,最後將4.5分以上的餐廳整理進名單,回傳給我。
還真別說,最終篩選出來的幾家粵菜館,味道真的不錯也避雷了網紅餐廳。
要過年了,AI能不能替我挑選點年貨,加到淘寶的購物車裡?
在這個過程中,展示了GLM的多層分析能力,畢竟年貨不是某一種具體的商品,在我向它提出這個需求時,它先是思考,送給父母年貨包括五穀雜糧、保健品、家電,雖然不一定完全符合父母的心意,但對類別的判定相對準確。
緊接著它在淘寶中分類搜尋了具體的商品,而不是直接搜尋“年貨”兩個字,當然,過程中出現了一些bug,當它搜尋穀子的時候,跳出來是二次元文化的吧唧,不夠時髦的GLM-PC一時間沒能理解這並不是目標商品,仍然將它加進了購物車。
GLM-PC還化身為了搶票神器,還沒搶到回家車票的我,讓GLM-PC幫我買最早一班的車票,它不僅查了幾天的車票情況,還慷慨的幫我點選了商務座,結果成功買到一張26日的一等座。
不過在我們的測試中,也發現了涉及到賬號登入、掃碼登入的頁面,GLM-PC沒辦法自主操作,也不會停下來,而是不停地重複該頁面。
與Operator一樣,GLM-PC也做了敏感性測試,讓使用者在敏感時刻,比如確認提交資訊、確認支付等頁面接盤操作。
同時,在GLM-PC操作電腦頁面時,會由GLM-PC主導滑鼠,人為干預後仍然繼續GLM的流程,只能按下暫停鍵或結束鍵才能完全交予人類接管。
在技術路線上,GLM-PC與Operator採用的是同一種技術方案:基於多模態大模型的視覺識別與空間進行互動。
據OpenAI介紹,Operator基於最新研發的Computer-Using Agent (CUA) 模型,透過觀察螢幕並使用虛擬滑鼠和鍵盤來完成任務,而無需依賴專門的API介面。
早在2023年12月,智譜便釋出了CogAgent,是其第一個基於視覺語言模型(Visual Language Model, VLM)的開源 圖形介面智慧體 GUI Agent 模型。GLM-PC即是基於該模型的初代產品。據開發文件中介紹,透過多模態感知實現全 GUI 空間互動。這些 GUI Agent,類似人類,能以視覺形式感知介面元素與佈局,模擬人類進行點選、鍵盤輸入等元操作,極大拓展了 Agent 在虛擬互動空間的應用邊界。

在GLM-PC 1.1版本中,使用更強大的視覺語言模型GLM-4V-9B作為基座模型,用來提升模型的基座影像理解效能。

與Operator相同的是,基於LLM模型提出Prompt,同時輸入的模態(影像感知)、輸出的操作空間(點選、滾動、鍵盤輸入)的互動方式一致,同時思考了Agent和人類的使用權交接情況,對於敏感時刻的判斷等等。
且在介紹中,Operator令Sam Altman頗為驕傲的是它的自我進化和自我反思能力,即Operator可透過不斷操作和學習掌握人類的習慣,不斷拓寬自身的能力邊界。
GLM-PC也基於智譜自研的「基礎智慧體解耦合中間介面」和「自進化線上課程強化學習框架」,其中包括了一種核心技術WebRL,對於大模型智慧體任務規劃、訓練任務和資料稀缺、反饋訊號稀少和多工策略分佈等問題進行了有意識的對抗,加之自適應學習策略,能夠在迭代過程中不斷改進,持續穩定提高自身效能,並在執行過程中獲取更多新技能。
不同的是,目前Operator現階段僅針對Web端,並且與ChatGPT繫結付費,而GLM-PC是獨立的App,可針對電腦進行操作(包括瀏覽器和電腦本地),同時手機可遠端遙控操作電腦,並且完全免費。
從Operator的日誌上看,Operator一次僅能執行單步的線性預測,和步驟執行,而GLM-PC具備多層級規劃預測能力,並將CogAgent 多模態GUI Agent模型與 CodeGeex程式碼生成模型相結合,可實現複雜嚴謹的邏輯控制。
但GLM-PC也對於硬體端的算力儲備有一定的限制,僅支援M系列的Mac電腦以及Windows10以上的系統。我們在M1晶片的MacBook Air上進行測試,整個過程中並未出現卡頓情況。

總的來看,GLM-PC更適合國內的網際網路環境,移動端和PC端聯動也更符合日常的使用習慣。據矽星人瞭解,GLM-PC也將根據使用者的反饋持續迭代互動體驗,真正解放了打工人的雙手!
