阿里妹導讀

作者透過深入分析、理解、歸納，最後解答了“為什麼一定要做Agent”這個問題。

最近一直在從事Agent智慧體相關的工作，主要是聚焦在阿里雲客戶服務領域，我之前寫過的一篇Agent落地文章《阿里雲服務領域Agent智慧體：從概念到落地的思考、設計與實踐》很榮幸受到了大家的歡迎，說明大家對Agent的概念及落地都還是比較感興趣的。

我們團隊近一年多的時間一直在服務領域持續構建、深耕Agent能力，在這方面我本人也投入了大量的精力。不過呢，在進行Agent能力落地、推廣的過程中，我經常被問到一個問題：為什麼一定要做Agent智慧體？或者換句話說，做Agent能夠給業務帶來什麼價值？

提出這個問題的人也挺多的，其實邏輯也並不複雜：同樣的業務場景，使用Agent無非就是構建了一個基於大模型按多步驟執行的流程，如果透過傳統的開發方法，如硬編碼（Hard Code）或者低程式碼的配置化平臺（如一些SOP配置平臺、流程編排平臺等），其實也同樣能實現類似Agent的流程功能。

說的具體一點，Agent其實就是讓大模型去呼叫API介面完成一些相對複雜的步驟執行，也完全同樣可以直接用程式碼去開發這個功能，或者使用低程式碼平臺的表單配置、邏輯配置、API介面配置，透過不同執行節點之間的引數配置、對映來構建複雜的業務流程。也就是說，問這個問題的核心意圖就是“Agent能做的事情，在Agent出現之前其實就能做”。

同時，使用大模型構建的Agent，還存在著非常多的挑戰，其中最常見的三個挑戰是：

Agent響應速度慢：由於Agent需要呼叫大模型，而大模型通常是流式輸出，這就導致使用者提問後需要等待一段時間，可能需要十幾秒鐘才能得到完整輸出，如果Prompt再長一些，那麼就連首次token的響應速度都會很慢。當然，Agent在執行過程中還涉及到思考（Thought）、推理（Reasoning）等中間過程，有時候還需要將複雜問題拆解為多個步驟，這些都會導致Agent的執行速度極其緩慢。
Agent會出現幻覺：由於大模型天然的設計問題，可能會產生事實性錯誤或不遵循指令的幻覺，相比執行速度慢，這更加引發了信任危機，對Agent執行結果的挑戰就更大了。
純文字互動不友好：由於大模型是基於自然語言進行互動的，因此絕大部分的Agent的設計都是類似在機器人裡使用對話流的形式提供服務的，輸入階段使用文字還相對好一些，輸出階段的時候很多Agent會有很多長篇大論的輸出，囉裡囉嗦字太多，人閱讀起來就比較費勁，這樣的互動相比傳統的一些結構化的、卡片式、表單式的互動體驗就差很多，因此很多人覺得這種對話式的互動並不是很友好。

相比而言，透過傳統方式構建的流程，相比Agent的技術而言，優勢就非常明顯：執行速度非常快、穩定、可以專門設計前端互動。所以問題就來了，尤其是服務領域，既然傳統的SOP或業務流程管理平臺也能夠完成這些複雜的任務，並且執行速度很快，很穩定、互動更好，那為什麼要還非要使用Agent？還一定要建設一個Agent平臺呢？更何況Agent還執行速度很慢、有幻覺、互動體驗差。

這個問題我思考了很久，也在多個場合進行了解答，但我還是想透過撰寫一篇文章來深入分析、理解、歸納，最後來解答一下“為什麼一定要做Agent”這個問題。

什麼是Agent

首先，要深入探討這“為什麼要做Agent”這個問題之前，我們先來看一下什麼是Agent？也就是Agent的定義是什麼？有很多人說，這還有什麼好定義的，不就是大模型呼叫API嗎？不，這只是對Agent概念的一個簡單的認知，我們還是非常有必要了解一下真正的Agent的含義是什麼。

目前，國內很多廠商和平臺將Agent翻譯為“智慧體”，但我想說的是，這種翻譯並不完全準確。如果從最原始的詞典裡去查的話，Agent這個英文單詞實際上是代理的意思。這裡的代理，我個人理解的含義指的是讓大模型“代理/模擬”「人」的行為，使用某些“工具/功能”來完成某些“任務”的能力。所以，你會發現國外使用Agent這個詞來代表讓大模型呼叫工具或功能幫人完成某些事情的過程，其實還是比較形象的。因此，只要符合這個定義的，其實就是一種Agent。

我們可以看到有許多大廠、獨角獸公司、研究所、高校，也給Agent下過許多定義，比較經典的一個定義是OpenAI的研究主管Lilian Weng給出的定義是：Agent = 大模型（LLM）+ 規劃（Planning）+ 記憶（Memory）+ 工具使用（Tool Use）[1]。這個定義實際上是從技術實現的角度對Agent進行了定義，它指的是要實現一個Agent，就需要支援這些能力，它需要基於大模型，需要有規劃的能力，能思考接下來要做的事情，需要有記憶，能夠讀取長期記憶和短期記憶，需要能夠使用工具，他是將支援這些能力的集合體定義為了Agent。

圖1 按照規劃、記憶、工具、動作分解的Agent定義（OpenAI）

另外的一個定義是復旦大學NLP團隊給出來的，他們認為Agent的概念框架包括三個元件：大腦、感知、行動[2]。大腦模組作為控制器，承擔記憶、思考和決策等基本任務。感知模組從外部環境感知並處理多模態資訊，而行動模組則使用工具執行任務並影響周圍環境。比如：當人類詢問是否會下雨時，感知模組將指令轉換為大模型可以理解的表示，然後，大腦會根據當前天氣和網際網路天氣報告開始推理，最後，行動模組作出回應並將雨傘遞給人類。透過重複上述過程，Agent可以不斷獲得反饋並與環境互動。

圖2 按照環境、感知、大腦、動作分解的Agent定義（復旦NLP）

其實這些各種版本的定義實際上是對我們剛才所說的Agent代理「人」做某些事情的一個更細緻的拆解而已，大家仔細想想，人要做某件事情，也是需要根據自己的記憶（學過的知識、當前事情的上下文），需要先規劃這個事情怎麼做，可能需要做一些思考、問題拆解，這中間也可能會使用各種各樣的工具，最終透過某些動作、操作去把把某件事情完成。

因此，國內將Agent翻譯為智慧體，也是在表達，一個能規劃、有記憶、能使用工具的東西，它又不是一個人，也不是一個動物，又不能直接將其描述為一個機器人（因為不一定是機器人形態，但有大腦），所以就給他起了個名字，叫“智慧體”。

Agent的優勢

在文章的開頭，我列出來了很多人反饋的Agent的幾大挑戰或者說缺點，但任何新興事務或者技術在發明初期都會存在這樣或者那樣的問題或者缺點，如果只看缺點，不看優點，可能很難看清事務發展的方向。

舉個例子，就像第一次工業革命的時候，蒸汽火車被髮明，相比前一代交通工具馬車，火車的缺點是什麼呢？它的缺點主要是隻能沿著固定軌道走，比較費煤炭，或者速度相比馬車太快，容易出現交通事故等等。但是，火車最終還是發展了起來，而馬車反而被時代所拋棄，如果僅僅是因為看到火車更容易出現的這些問題，就停止對火車的發展，顯然是非常武斷和草率的。因為，相比馬車來講，火車速度更快，效率更高，跑起來更穩定，乘坐體驗更好。而馬車速度慢、十分顛簸，更重要的是駕馭馬車是需要很高成本的，需要有騎馬的技巧，還需要馴服馬匹，畢竟動物沒有機器那麼容易控制。

圖3 馬車vs火車，第一次工業革命帶來的交通工具的變革

那麼，Agent的優勢在哪裡呢？Agent可以“代理/模擬”「人」來完成相關事情，它有一個非常聰明的大腦，甚至在很多領域比人都聰明，所以，從這個角度來看，Agent的出現，其實是“解放了人的生產力”，所以，從這個角度來說，Agent其實是一個極大提升效率的生產力。具體地，體現在下面幾個方面，我將逐一展開分析。

降低應用開發門檻

首先，使用Agent智慧體的第一個優勢是降低了應用開發的成本和門檻。在工作和生活中，我們很多時候存在很多的需求，這些需求如果想要滿足，要麼就是尋找已經造好的輪子（比如現成的平臺或APP），要麼就是自己動手DIY一個定製化的輪子，那麼就涉及到一個應用開發的問題。

過去，想要實現一個功能，我必須是一個專業的開發人員，必須能夠編寫專業的程式碼。但現在，如果你使用Agent而不是傳統的硬編碼方式，那麼首先的好處就是你不需要編寫程式碼，這降低了門檻。也就是說，如果我不是專業的研發人員，我是一個產品經理，或者是一個運營人員，我也可以透過自然語言描述prompt的方式實現一個Agent，來滿足我的個性化需求的開發。這是需求開發的巨大的效率提升，也是應用開發的門檻的大幅降低。這是Agent與傳統開發正規化相比，最大的區別。

這麼單純的講概念，大家體感還是會不夠深，這裡我類比兩個經典的Case，第一個是字節跳動推出的剪輯軟體剪映，它極大地降低了自媒體創作者製作影片的門檻。

圖4 在剪映（專業版）中可以很方便的剪輯影片，AI識別字幕

在以前，拍攝影片、剪輯影片需要專業的技巧，尤其是剪輯影片，成本非常的高。你不僅僅是將影片切割成多個片段或者組合片段，更重要的是，還需要做各種轉場、加各種元素、特效，甚至還要新增字幕。早期的字幕都是需要在軟體裡面一個時間幀一個時間幀進行插入和編輯的。但是現在有了剪映，它與傳統軟體最大的區別就是剪映加入了大量的模板和AI功能，極大地降低了普通人創作影片的難度。它除了提供了豐富的轉場模板和特效，你可以直接使用，它更重要的是提供了許多AI帶來的功能，比如AI快速剪輯、AI生成素材，甚至AI新增字幕。原來給一段影片新增字幕可能需要一天的時間，現在使用剪映的AI加字幕，幾分鐘就可以完成。人只需要檢查一遍，調整一些小瑕疵，影片就剪輯完成了。這是一個內容創作門檻的巨大降低，使得影片創作越來越簡單，讓更多原本不能或不會製作影片的人能夠製作出好的短影片。抖音、b站、小紅書等短影片/內容平臺能做的這麼火爆，除了自身APP的運營推廣之外，降低影片製作門檻，絕對是非常之重要的一個方面，只有提高了內容創作的生產力，才能帶來更多內容，真正的讓技術不再是門檻，發揮創意成了人要考慮的、最重要的事情，人人都是剪輯師。

圖5 美圖秀秀（電腦版）中支援的許多功能是基於AI增強的

同樣的類似的Case，還有美圖秀秀。早年如果你想修圖，你必須學習Photoshop，這也是為什麼修圖也叫P圖的原因，因為其首字母就是P開頭，要想修圖就必須要會用這款軟體。你需要學習Photoshop複雜的摳圖功能和調色、調光能力。現在有了美圖秀秀，你只需要開啟APP，它就提供了一系列低成本的工具和AI能力，甚至能夠快速讓你的圖片一鍵變美。無論是變瘦、磨皮變美，都可以分分鐘做到，你要做的只是需要選擇一下，點選一下，就可以完成。所以現在修圖，真的不需要再去找專業的修圖師，完全可以透過這些APP自己完成圖片的美化和創作，同樣的讓P圖技術不再是門檻，人人都是修圖師。

而在大模型時代，Agent的目標是解放需求開發的生產力。假如你想要做一個APP、一個網站，或者一個小程式來滿足個人需求，你以後應該也幾乎不需要專業的軟體開發團隊來完成了，透過Agent，即使你是一個不懂前端、後端、演算法，也不懂產品設計的人，也能輕鬆地用大模型做出一款GenAPP（生成式APP），讓程式碼開發、引數配置的技術不再是門檻。

圖6 通義智慧體平臺上有著許多Agent，他們其實都是GenApp

其實我們可以看到，現在有包括我們在內的很多頭部廠商或獨角獸已經在加大投入做Agent平臺了，這些人的目標也是致力於讓更多普通人透過簡單的自然語言描述和極為簡單的配置，最低成本地實現一個能夠解決更復雜問題、執行更復雜任務的Agent。所以這個事情已經不是在未來了，而是已經是進行時了，相信不在遠的將來，我們會迎來GenAPP的大爆發時代，人人都是開發者。

簡化流程複雜度

使用Agent的第二個優勢是簡化流程複雜度。大模型的引入，可以像“膠水”一樣連線各個模組，比如能夠自動處理引數轉換、能夠自動完成一些校驗邏輯，這就極大的減少了流程配置的工作量。這種自動化的能力使得開發過程更加高效。

圖7 傳統的流程編排過程過於複雜

比如，在流程中通常會調許多API，如果是傳統的流程編排，前一步的API返回結果傳進來，與後一步API輸入引數之間的對映，你必須得嚴絲合縫，包括變數型別和內容，你必須要有完備的轉換過程，才能保證不會出現任何bug或錯誤。但有了Agent之後，你不需要做那麼完備，你可以讓大模型在中間像“膠水”一樣去連線各個模組。大模型就像「人」一樣，看到問題、API介面、引數時，它會自然而然地做轉換。它可以把使用者的問題輸入內容自然地轉換到相應的API入參上。所以大模型或Agent的出現，它可以做這個粘合劑，把那些不完備的地方，透過模型本身的強大理解能力給彌補完備。就是這樣的一個能力，會大大降低一個流程或一個GenApp的構建複雜度。上一步是構建降低了構建的門檻，不但不用寫程式碼和配置，只需要寫字就可以，一些不必要的中間過程邏輯也可以不寫，只需要關注在最主要、最核心的流程上即可。

對於流程複雜性這一點，在演算法模型層面尤為明顯。例如，如果我想用傳統的方式開發一個APP或功能，需要開發許多小模型來完成某些功能。比如，在一些流程的開頭，可能會需要一個“路由”模組，在以往的情況下，這需要訓練一個單獨的路由模型，從而來判斷問題或者意圖需要路由到哪個分支。其他類似的，在流程中間涉及到需要演算法模型參與識別的地方，我仍然需要去呼叫或者SFT一些小模型來處理這些單獨的任務。每個單獨的小模型的訓練，都需要收集相應的資料集，構建相應的Label標籤，然後訓練，最終部署，並且這些小模型最終也就只能做這麼一件事情。

但是，基於大模型的Agent實際上就極大的避免了這種流程的複雜性並降低了成本，你完全可以透過prompt來讓大模型完成一個簡單的操作。大模型甚至自己可以給自己寫prompt、自己分解一個複雜問題，分解完之後它自己判斷是否需要路由、是否需要中間呼叫某些識別能力、是否需要做某些判斷，它自己完全就可以做好這些事情。也就是說，大模型以及Agent的出現，它不需要你去做一個這樣非常“完備”的流程。

互動方式多樣性

第三點個優勢，是關於互動層面的，也就是說是LUI（自然語言互動介面）還是GUI（圖形互動介面）的問題。誒？等等，不對啊，在前面不是說，大模型是基於自然語言進行互動的，因此純文字互動不友好，這應該是Agent的一個缺點吧！怎麼放在優勢裡面講了呢？其實，與其說是一個缺點，不如說這是一個“誤區”。其實，Agent智慧體並不侷限於自然語言互動，它是可以處理多種形式的輸入和輸出，包括圖形介面和動作執行。這意味著Agent可以適應不同的應用場景，提供更靈活的解決方案。

前面講過，什麼是Agent？讓大模型“代理/模擬”「人」的行為，使用某些“工具/功能”來完成某些“任務”的能力就可以定義為Agent。那麼，你會發現，這裡面其實並沒有提到互動的問題，並沒有來說必須是自然語言互動還是什麼其他形式的互動，所以，自然語言的互動介面，只是人和大模型、介面和大模型之間的互動方式，並不意味著Agent也要以自然語言的形式與大模型進行互動。

給大家看幾個非自然語言互動的Agent的例子，大家就能看明白了。比如，國外大模型廠商Anthropic釋出過一款控制電腦使用的Agent[3]，其效果比較驚豔，大家可以點此檢視演示影片（https://www.youtube.com/watch?v=ODaHJzOyVCQ）：

圖8 Anthropic研發的可以自主控制電腦的Agent

Anthropic的這個Agent，他可以幫我開啟電腦上的某個瀏覽器，甚至都不需要指定瀏覽器的名稱，只說幫我開啟瀏覽器，幫我輸入某個網址或開啟某個網頁搜尋什麼關鍵詞，點選某個步驟就可以。可以完全用自然語言描述這個需求，描述完畢後，大模型在實際執行的時候，它會直接上去操作。它透過截圖，然後給大模型透過多模態識別去獲得螢幕上的內容，然後自己判斷螢幕上哪個圖示是瀏覽器，自己完成點選操作，然後自己去找哪個地方是位址列，自動把你說的網站轉換成網址填進去，然後幫你搜索東西。整個過程，只有輸入是自然語言，但輸出其實就是一個系列的操作動作的執行。

再比如，微軟釋出了十款非常受歡迎的Agent[4]，其中有一個是供應鏈分析Agent，它會透過自主跟蹤供應商的表現，檢測供應鏈延遲並做出響應，幫助企業最佳化供應鏈，讓採購團隊擺脫耗時的手動監控，減少供應鏈中斷帶來的額外成本。

圖9 微軟供應鏈分析Agent可以自主分析供應鏈延遲檢測

在這個Agent裡，輸入都不是自然語言了，它們可能是一些預設的要求、選項或表單，讓使用者去互動。互動完畢後，它背後會整理成一個自然語言給到大模型，讓大模型完成一些任務。比如，幫我分析這一週的銷售情況，你可能就在前端的表單裡選個時間，但背後的執行、分析、報告生成過程，是大模型自主思考去完成的。並且，最終生成出來的報告也並非是以自然語言形式，它是直接渲染成了一個圖表、表格等在內的各種展示形式的集合體，甚至還有一些曲線預測這樣的內容。

綜上所述，挑戰Agent是以對話形態為主的互動，其實是一個偽命題。Agent並不是一定是以純自然語言形式去進行互動的，並且這在Agent的定義裡面本身也是沒有的。

協同完成複雜任務

最後，有一個現在非常火熱的Agent熱點，就是多Agent（Multi-Agent），Agent的存在形式並不是僅僅是單一的功能了，而是可以進行各種各樣的組裝、協同、競爭[2]。

圖10 多Agent的協同模式，如合作方式、競爭方式等

比如多個Agent之間進行組裝完成一些複雜的場景，比如在服務領域的某些工單裡面，經常會出現客戶在同一個工單中連續問多個問題，這個時候，就完全可以呼叫多個處理不同問題的Agent參與決策進行合作，就像人一樣進行接力，把問題解決。有些時候，也可能會面臨一些疑難雜症的問題，也可以有多個領域相關的Agent來進行專家會診，甚至Agent之間都可以相互交流，最終討論、解決同一個問題。

Agent之間也可以進行競爭，多個子任務Agent給出了多版不同方案，由一個決策Agent或者人來最終決定要使用哪款子任務Agent給出的方案等等。

甚至還有不少人在設想未來會出現由多個Agent組成的社會，甚至人類也可以參與其中。下面這張圖就展示了這個多Agent社會中的一些特定場景。在廚房中，一個Agent負責點菜，另一個Agent負責規劃和解決烹飪任務。在音樂會中，三個Agent正在合作參與樂隊演出。戶外有兩個Agent正在討論燈籠製作，計劃所需的材料和財務，並選用工具。人可以參與這個社會活動的任何階段，這個社會就彷彿一個小的世界一般。

圖11 一種假想的多Agent社會

直面Agent存在的挑戰

現在讓我們繼續把注意力轉回到開篇我們講的幾點Agent的挑戰，其中第三點關於互動的在前文中已經講過了，現在說一下另外兩個挑戰。當然，只要是現在神經網路架構下的大模型，就仍然存在之前提到的速度慢以及幻覺問題。但是，其實這些問題一直在不斷由各種方案最佳化中。

首先，在速度方面，我們已經可以看到許多公司透過晶片級別的提升，比如透過提升GPU的效能，或者在GPU上實現更多其他的晶片層面加速。也有許多像FlashAttention、vLLM這樣的大模型部署框架，透過對Transformer中KV Cache的最佳化來提升推理速度等等。還有一些方法是透過減少模型的引數量，捨棄一些無用的引數，只保留重要的引數資訊，儘量保持效果不變，這就是模型引數裁剪。還有使用更小引數的模型去針對大引數量的模型做模型蒸餾，其他的還有各種量化技術等等。透過這些從硬體到軟體層面的最佳化，是可以不斷的提高模型的執行效率的。當然，出來模型層面的最佳化之外，還有許多在工程層面的最佳化，比如對於大文字、大文件的讀取，可以使用預處理的方式將其切塊，對於一些冗長的Prompt，可以做一些Prompt層面的資訊壓縮，從而提高大模型的響應速度等等。

圖12 AI晶片、最佳化KV Cache等各種大模型推理加速最佳化方案

至於幻覺問題，現在大部分的模型隨著不斷的迭代、更新，在Prompt寫的比較明確的情況，基本上很少出現太離譜的事實性錯誤幻覺，更多是指令寫的不明確，存在歧義，大模型沒按照預期的情況去輸出，導致被大家定義為了幻覺。這種情況，我們也會去引導Prompt的規範化書寫，甚至還有一些類似於OpenAI的Meta-Prompting專案[5]，用Meta-Prompt指導大家最佳化Prompt的方案，也能進一步提升大模型對指令跟隨的能力，產出更符合期望的Agent。同時，在模型推理層面，像DeepSeek R1或OpenAI o1/o3系列模型，基於慢思考的System2，透過引入hidden-thought等方法進行reasoning推理，從而提升了大模型的理解能力，進一步減少幻覺的比例。其他的還有類似GraphRAG等方案，在RAG中引入知識圖譜推理，也能進一步減少大模型的幻覺比例，提升大模型的準確性和理解能力。

這裡我提前預告一下，在提升大模型的執行速度和降低幻覺這方面，我們也在探索一些新的方法，從而來最佳化Agent的速度和穩定性。比如說我們在研究一種Agent預編譯能力，即會去讓大模型自動拆解哪些部分不需要大模型的參與，哪些部分就可以在Agent構建階段進行提前預編譯，這樣在真正線上執行Agent時，大部分的場景下是不需要大模型參與即時生成的，只需要大模型參與必要的部分生成，從而縮短大模型的推理時長，並提高穩定性。這個方案我們還在研發中，具體詳細的方案和效果會在後續的文章中進行介紹，這裡大家可以點個關注、收藏，敬請期待吧~

綜上所述，我們可以看到，儘管大模型存在著一些挑戰，但是透過不斷的技術創新和最佳化，我們正在努力提升Agent的效能和穩定性，降低幻覺的比例，使其更加高效和可靠。相比這些缺點（更何況未來會逐步解決），Agent的優點顯然是更值得我們繼續投入下去的動力，總而言之，一句話來說就是：做Agent相比不做Agent利大於弊，是一個值得我們長期重點投入下去的能力和形態。

總結

經過上述的分析和例子，我們可以看到做Agent相比不做Agent的優勢是顯而易見的。儘管現在的技術手段上存在一些問題和挑戰，但這些短暫的問題不應該直接否定Agent發展前景，而是應該更加堅定的正確的方向上不斷推進，繼續最佳化Agent平臺和能力，儘量減少問題的出現。

哲學裡面有個基本規律叫“否定之否定”，歷史的發展總體程序一定是“曲折向前”的，甚至是螺旋式發展，在新舊事物交替的期間，甚至很容易出現新舊事物雜糅的情況。舉個例子，姜文導演的電影《讓子彈飛》（申遺！）的開頭有經典一幕，就是有幾匹馬拉著一列火車在鐵路上狂奔，這種“馬拉火車”的形式，的的確確在清末民初時期短暫出現過，這就是經典的新舊事物雜糅起來的情況，捨不得淘汰馬車，同時又想使用新發明的火車，於是就變成了“馬拉火車”的奇觀。你可以想象一下，之所以出現這樣的情況，是不是因為當時有人擔心火車開太快，或者是擔心煤炭不足，也可能有人擔心馬會“失業”等等，無論是哪種情況，最終折中和妥協的產物就是這種四不像的“馬拉火車”的出現，其實是一種很“擰巴”的現象。

圖12 電影《讓子彈飛》中出現過的“馬拉火車”景象

但我也能理解，任何事物的出現需要一定的時間取讓大家接受，甚至很多創新、變革都是漸進式發生的，很難一蹴而就。但我們要做的，就是努力縮短像“馬拉火車”這樣的過渡階段出現的時間，儘可能更加從本質上去提升生產力和效率，讓新技術快速落地，避免陷入和老技術糾纏不清的泥潭和歷史債務之中。

好了，說了這麼長篇大論，也到了該結尾的時候了。本文是我個人對Agent的定義、優勢、挑戰，以及為什麼要做Agent的一些分析和思考，是最近一段時間的所思、所想，很多想法確實也有些主觀，但我希望能夠和大家一起交流一下，看看能否更好地理解這個問題。如果大家有什麼更好的想法或者其他的疑慮、問題，也可以在評論區發表您的想法或者私聊我進行交流。

Reference

[1] Lilian Weng. LLM Powered Autonomous Agents

[2] Xi, Zhiheng , et al. The Rise and Potential of Large Language Model Based Agents: A Survey.

[3] Anthropic. Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku：https://www.anthropic.com/news/3-5-models-and-computer-use

[4] Microsoft Blogs. New autonomous agents scale your team like never before：https://blogs.microsoft.com/blog/2024/10/21/new-autonomous-agents-scale-your-team-like-never-before/

[5] Suzgun, Mirac , and A. T. Kalai . Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding.

在 App 上搭建開箱即用的 AI 助手

企業在移動應用中整合 AI 功能時往往面臨開發週期長、技術複雜度高等問題，本方案基於多端低程式碼開發平臺和大模型服務平臺，透過構建非侵入式 Copilot 助理，提供意圖識別、知識問答等智慧服務，實現應用快速、無縫智慧化升級，助力企業高效創新。

點選閱讀原文檢視詳情。