從文字到螢幕:「ProjectJarvis」們能實現AGI嗎?

本文來自PRO會員通訊內容,文末關注「機器之心PRO會員」,檢視更多專題解讀。

推進自主 AI Agent 的發展是今年人工智慧領域公司最重要的技術趨勢之一。Gartner 預測,到 2028 年,至少 15% 的日常工作決策將透過 AI Agent 完成。
微軟、谷歌、Anthropic 等公司近期陸續推出 AI Agent 及相關功能,使用 AI Agent 幫助使用者自主操控計算機、手機等智慧裝置。
這些 AI 頭部公司在 AI Agent 方面的動作有何異同?使用AI Agent 操控計算機、手機等智慧裝置這事可行嗎?
目錄
01.AI Agent 的下一個方向:用 AI 操控計算機,RPA Agent 成為更實際的落地方向
頭部 AI 公司為何都在做 AI 自主計算機操控?這事可行嗎?和 RPA 的區別是什麼?
02. 微軟、谷歌、Anthropic 等 AI 頭部公司近期在 AI Agent 方面有哪些動作?
微軟、谷歌、Anthropic 在 AI Agent 方面的動作有何異同?
03. AI Agent 能力突破有限:近期研究主要集中在螢幕解析方面
AI Agent自主操控計算機需要具備哪些能力?
04. 讓 AI Agent 使用人類所有工具來完成任務仍是暢想
為什麼說 AI Agent 實際能用還有一段距離
 01 AI Agent 的下一個方向:用 AI 操控計算機,RPA Agent 成為更實際的落地方向
1、推進自主 AI Agent 的發展是今年人工智慧領域公司最重要的技術趨勢之一。Gartner 預測,到 2028 年,至少 15% 的日常工作決策將透過 AI Agent 完成。
2、微軟、谷歌、Anthropic 等公司近期陸續推出 AI Agent 及相關功能,使用 AI Agent 幫助使用者自主操控計算機、手機等智慧裝置。[1]
① 微軟近期在 Dynamics 365 業務線應用程式中推出了 10 款用於銷售、運營和服務的 AI Agent,可以自動執行任務,如篩選潛在客戶、監控供應商表現、管理客戶意圖和知識庫等;同時,11 月還將在 Copilot Studio 中開啟自主建立 Agent 的功能,客戶可以根據自己的需求自主構建 Agent,用於處理客戶查詢、識別銷售線索和管理庫存等。[2]
② Anthropic 近期推出了升級版的 Claude 3.5 Sonnet,該模型支援計算機使用功能,能夠根據使用者指令移動游標、點選相應位置以及透過虛擬鍵盤輸入資訊,模仿人類與計算機的互動方式。[3]
③ 據 The Information 報道,谷歌也將開發可控制計算機的 AI 系統「Project Jarvis」,透過擷取和解釋螢幕截圖,然後點選按鈕或輸入文字,幫助人們「自動執行日常的基於網路的任務」。[4]
④ 此外,智譜釋出了應用 AutoGLM,能讓 AI 像人類一樣操作電腦和手機的成果。使用者可以透過簡單的指令讓 AutoGLM 自動完成多種任務,如閱讀網頁資訊、電商購物、點外賣、訂酒店、社交媒體互動。[5]
3、使用 AI Agent 來自主操控計算機等智慧裝置正在成為近期科技巨頭、頭部創企們發力的重點方向。
① 除了上述提到的進展,微軟也推出了 Copilot Vision,可讓使用者與 Agent 討論正在瀏覽的網頁;蘋果推出的 Apple Intelligence 系統將在明年實現用 Agent 瞭解螢幕內容併為使用者跨應用程式執行操作;OpenAI 被曝正在測試可以使用 Windows 電腦的 Agent。
4、隨著 LLM 等技術的進一步發展,AI Agent 的研究方向逐漸從用於處理耗費人類時間和精力的日常任務,轉向能夠自主監控和管理系統的下一個級別的 AI Agent。
① 微軟研究院負責人、資深計算機科學家 Peter Lee 認為,目前自主 AI Agent 的研究發展方向為能夠規劃和執行復雜任務、與其他 AI Agent 協作並從他們的行為中學習。需要解決的核心問題是實現 AI Agent 的自主性和協作性。[6]
② 根據吳恩達提出的四種 AI Agent 設計模式,現有的大廠、創企推出的 AI Agent 相關落地應用或功能主要集中在工具使用方面,即 Agent 利用外部工具,如網路搜尋、程式碼執行等,來幫助收集資訊、採取行動或處理資料。[7]
5、但實現 AI Agent 的自主性、通用泛化能力的突破仍有距離。受限於現有 AI Agent 執行能力的侷限,以及各家科技巨頭、大廠的業務對於 RPA(機器人流程自動化)的需求,近期微軟、Anthropic 等推出的 AI Agent 更偏向於 RPA Agent。「UI+API 自動化」成為目前階段大幅提升 AI Agent 執行能力的重要落地方向。
6、傳統的 RPA 與 AI Agent 的主要區別:從任務型別角度來看,傳統的 RPA 用於幫助使用者處理如資料輸入、發票處理等自動化重複任務,AI Agent 在此基礎之上,能夠處理更加複雜、不可預測的認知任務;從靈活性和適應性角度來看,RPA 通常涉及預定義的工作流程,明確定義的程式或步驟,AI Agent 則是通用性,能夠學習和適應新的任務或環境。
7、隨著 AI 技術的發展,RPA 與 AI Agent 技術的融合成為 RPA 廠商或巨頭大廠們的趨勢。據 Gartner 釋出的《2024 機器人流程自動化(RPA)魔力象限》報告,預計到 2025 年,90%的 RPA 供應商將整合生成式 AI 技術,進一步提升自動化的智慧化水平。基於 AI Agent 技術,RPA 不是簡單地遵循預定義的規則和工作流程,而是可以從資料中學習、識別模式並做出決策,能夠自動執行更復雜的認知任務。[8] 
 02 微軟、谷歌、Anthropic 等 AI 頭部公司近期在 AI Agent 方面有哪些動作?
不管是微軟、谷歌等科技巨頭,還是 OpenAI、Anthropic 等 AI 創企,各家公司在 AI Agent 方面的相關研究及佈局,均是為其已有或重點業務方向所服務。
表:不完全統計美 AI 頭部公司近期在 AI Agent 方面的相關動作
1、微軟:面向企業客戶,服務於生產力和業務流程業務板塊[2]
1)微軟推出的 AI Agent 應用於其 Dynamics 365 業務線應用程式,用於銷售、運營和服務,主要為企業客戶服務……
 關注👇🏻「機器之心PRO會員」,前往「收件箱」檢視完整解讀 

👀 往期回顧 👀 
 01 微調失格?持續反向傳播演算法將解鎖新的訓練正規化嗎?
當前深度學習有什麼根本缺陷?微調將來不存在了?Dynamic DL 是什麼?反向傳播演算法是什麼?持續學習在 LLM中有哪些進展?反向傳播演算法會解鎖新的訓練正規化嗎?…
 02 從卷文字到卷多模態:國內的大模型公司都在忙什麼?
MLLM 和 LMM 兩種不同思路,哪種更有可能實現多模態互動?未來的通用智慧是否一定是多模態智慧?在多模態的競爭中,AI 大模型創企、科技大廠、多模態大模型服務廠商推出的產品表現如何?在佈局上,有哪些異同?為什麼說雖然產品資料表現亮眼,但距離實現 PMF 還仍有很長的一段路要走?
 03 Scaling 正規化變了?Self-Play 還值得 All In 嗎?
OpenAI 的 o1 模型有質的突破嗎?Scaling Law 的正規化要變了嗎?Self-Play 在新正規化中重要嗎?傳統 Self-Play 技術發展如何?Self-Play+LLM 已經能訓出更強的模型了嗎?…
 04 Machine Psychology,解構 LLM 還是心理學更靠譜嗎?
什麼是 Machine Psychology?為什麼要做 Machine Psychology?做 Machine Psychology 有哪些路線?哪些心理學理論可以用於 LLMs 研究?Machine Psychology 要如何應用?Machine Psychology 下一步要怎麼走?…
更多往期專題解讀內容,關注「機器之心PRO會員」服務號,點選選單欄「收件箱」檢視。


相關文章