吳恩達:AI智慧體的未來|ZTalk

Z Talk 是真格分享認知的欄目。
我們在這裡談論最新的行業觀察,先鋒的創業動態,也在這裡與真格老友相聚。我們相信持續的學習和進化,相信最深刻的認知來自實踐。
近日,斯坦福大學教授吳恩達在演講中提到,基於 GPT-3.5 構建的智慧體工作流在應用中表現比 GPT-4 要好。AI 智慧體工作流將在今年推動人工智慧取得巨大進步,甚至可能超過下一代基礎模型。
我們整理了本次演講的內容,希望對你有所啟發。
吳恩達:
我很期待與大家分享我在 AI 智慧體中看到的令人興奮的趨勢,我認為每個 AI 從業者都應該關注這個趨勢。
我要分享的主題是 AI 智慧體。現在,我們大多數人使用大語言模型的方式是這樣的:我們在一個非智慧體工作流中,把提示輸入到對話方塊中並生成答案。這有點像我們讓一個人寫一篇文章,讓他請坐到鍵盤前,從頭到尾打出一篇文章,中間不使用退格鍵。儘管這很難,AI 大模型還是做得非常好。
智慧體工作流長這個樣子(下圖右側)。有一個 AI 大模型,我們讓它寫一份論文大綱。需要上網查資料嗎?如果需要,就聯網。然後寫初稿、讀初稿,並思考哪些部分需要修改。繼續修改初稿並推進。
這樣的工作流程更容易迭代。你可以讓 AI 大模型進行一些思考,然後修改這篇文章,然後繼續思考,再按照這個步驟迭代多次。
很多人都沒有意識到的是,這麼做的效果會更好。對於這樣的工作決策流程和優秀表現,我自己也很驚訝。除了這些個案研究,我的團隊也分析了一些資料,基於 OpenAI 幾年前釋出的名為 HumanEval 的程式設計評估基準。這上面有一些程式設計問題,比如給定一個非空整數列表,返回位於偶數位置的所有奇數元素的和。AI 生成的答案是像這樣的程式碼片段:
事實證明,如果你使用 GPT-3.5,在零樣本提示的條件下,GPT-3.5 的準確率是 48%。GPT-4 要好得多,達到了 67%。但如果你採用的是智慧體工作流,並將其打包,GPT-3.5 實際上能表現更好,甚至比 GPT-4 還好。
如果你圍繞 GPT-4 構建這樣的工作流,GPT-4 也能表現得很好。注意,處於智慧體工作流中的 GPT-3.5 實際上優於 GPT-4。這是一個訊號。
所有人都在圍繞智慧體這個術語和任務開始大量討論。有很多諮詢報告,關於智慧體、AI 的未來,等等。接下來,我想具體分享我在智慧體中看到的四種模式:
反思(Reflection):LLM 檢查自己的工作,以提出改進方法。
使用工具(Tool use):LLM 擁有網路搜尋、程式碼執行或任何其他功能來幫助其收集資訊、採取行動或處理資料。
規劃(Planning):LLM 提出並執行一個多步驟計劃來實現目標。
多智慧體協作(Multi-agent collaboration):多個 AI 智慧體一起工作,分配任務並討論和辯論想法,提出比單個智慧體更好的解決方案。
接下來我將詳細解釋這四種模式。
首先是 Reflection。舉個例子:假設我讓一個程式碼智慧體為某個任務寫程式碼,它會根據 prompt 寫出一個如圖所示的函式。
如果你寫一段 prompt,把你剛剛生成的程式碼給它,告訴它這是用於執行某個任務的程式碼,讓它檢查這段程式碼的正確性、效率等問題。結果根據你的 prompt 寫出程式碼的那個大模型,可能會發現程式碼裡的問題,比如第五行的 bug。它還會告訴你怎麼修改。
如果你現在採納了它的反饋,並再次給它提示,它可能會給出一個比第一個版本更好的第二版程式碼。不能保證一定如此,但這是有效的。
第二種模式是 Tool use(使用工具)。許多人可能已經見過基於大模型的系統使用工具。左邊是一個截圖,來自 Copilot。右邊的截圖來自 GPT-4。左邊的問題是,網上最好的咖啡機是哪個?Copilot 會透過上網檢索來解決一些問題。GPT-4 將會生成程式碼並執行程式碼。有很多不同的工具,可以用於分析、收集資訊以採取行動、提高個人生產力。
很多關於 Tool use 的工作都是在計算機視覺社群。因為之前,大型語言模型對影像無能為力,所以唯一的選擇就是大模型生成一個函式呼叫,可以用來操作影像,比如生成影像或目標檢測。Tool use 擴充套件了大型語言模型的能力。
接下來是 Planning(規劃)。對於沒有大量接觸過規劃演算法的人來說,他們會覺得,「哇,從未見過這樣的東西」。同樣,很多人看到 AI 智慧體會很驚訝,「哇,我沒想到 AI 智慧體能做這些」。
在我進行的一些現場演示中,有些演示會失敗,AI 智慧體會重新規劃路徑。我經歷過很多這樣的時刻。其中一個例子是從 HuggingGPT 論文中改編的,輸入的是:請生成一張圖片,一個女孩在看書,她的姿態和影像中的男孩一樣,再使用你的聲音描述這張新圖片。
今天有了 AI 智慧體,你可以確定第一件要做的事是確定男孩的姿態,提取姿態。接下來需要找到一個姿態影像模型,遵循指令生成一張女孩的影像。然後使用影像 – 文字模型得到描述。最後使用文字轉語音模型讀出描述。
我們今天已經有了 AI 智慧體和智慧體迴圈。當我並不想花很多時間在谷歌搜尋上,我就會把需求發給 AI 智慧體,幾分鐘後回來看看它做了什麼。它有時有效,有時不行。但這已經是我個人工作流的一部分。
最後要講的模式是多智慧體協作。這部分很有趣,效果比你想象的要好得多。
下面這張圖來自一篇名為 ChatDev 的論文。ChatDev 是多智慧體系統的一個例項。你可以給它一個 prompt,它有時扮演軟體引擎公司的 CEO,有時扮演設計師,有時又是產品經理、或測試人員。
這群智慧體是透過大模型的 prompt 來構建的,告訴它們「你現在是 CEO / 你現在是軟體工程師」。他們會協作、進一步對話。如果你告訴它們,「請開發一款遊戲」,它們會花幾分鐘寫程式碼,然後進行測試、迭代,生成一個令人驚訝的複雜程式,雖然並不是總能執行。
事實證明,多智慧體辯論(比如說,你可以讓 ChatGPT 和谷歌的 Gemini 辯論),實際上會帶來更好的效能。因此,讓多個相似的 AI 智慧體一起工作,也是一個強大的模式。
總結一下,我認為如果我們在我們的工作中使用這些模式,很多人可以快速獲得實踐上的提升。我預計,今年 AI 能做的事情將大幅擴充套件,這得益於智慧體工作流。
人們在輸入提示之後,總想立即得到結果。在進行網路搜尋時,你想在半秒鐘內得到回覆。這是人性使然 —— 我們喜歡即時獲取、即時反饋。
但是對於很多 AI 智慧體工作流來說,我們需要學會分配任務給 AI 智慧體,並耐心地等待幾分鐘,甚至幾小時,直到給出回應。
我見過很多新晉管理者,喜歡將某事委託給某人,五分鐘後檢查結果。這不是一種有效的工作方式。我們也需要對我們的 AI 智慧體多點耐心。
另一件重要的事情是,快速的 token 生成非常重要。如果 AI 生成 token 的速度比任何人的閱讀速度都快,那太棒了。我認為,快速生成更多 token,即使大模型質量稍低,也能帶來很好的結果。因為它可能讓你在這個迴圈中反覆更多次。
坦率地說,我非常期待 Claude 4、GPT-5 和 Gemini 2.0,以及其他正在研發的大模型。如果你期待以零樣本的方式在 GPT-5 上執行你的任務,你可能能透過一些 AI 智慧體應用,實現接近那一水平的效能。
智慧體推理加上之前釋出的大模型,我認為這是一個重要的趨勢。通往 AGI 的道路感覺更像是一段旅程,而不是目的地。我認為這套智慧體工作流,可以幫助我們在這漫長的旅程中向前邁出一小步。
參考連結
https://www.deeplearning.ai/the-batch/issue-242/
https://zhuanlan.zhihu.com/p/689492556?utm_medium=social&utm_psn=1756970518132240384&utm_source=wechat_session
https://www.youtube.com/watch?v=sal78ACtGTc&t=108s
推薦閱讀

相關文章