
社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
就在前幾天,OpenAI 又雙叒叕悄悄釋出了一個開源專案 openai-realtime-agents,這玩意兒是基於 Realtime API 整出來的一個多 Agents 語音應用示例。有了它,只要 20 分鐘,屬於自己的多 Agents 語音應用,你也能帶回家!

Github:https://github.com/openai/openai-realtime-agents
在一位大佬分享了其“狀態機 Prompt”的概念後,平臺上的網友已經在瘋狂議論了。

有的讚歎不已 👏:

也有的表示不屑,自己早有過這樣的嘗試:

還有的則更看好低程式碼或全程式碼形式的 workflow 🤔:

也有執行力強的網友已經開始執行專案了 👍:

另有大佬表示,這次的專案預示著超級人工智慧的產生,他還猜測 OpenAI 內部已經訓練出了博士水平的模型,將與此專案非常契合:

看到網友們如此興奮,鼠鼠我呀,也躍躍欲試想探個究竟了 ~
多 Agents 語音應用示例
在以前,我們知道,要制定一個 Agent、搭建多 Agents 應用、實現多 Agents 之間的互動,往往需要複雜的程式設計知識和大量的開發工作,比如 MetaGPT、CrewAI、XAgent、微軟的 AutoGen。你不僅要精通各種程式語言、開發環境搭建,還需要對 Agent 規則制定等方面有一定的瞭解。
而這個專案最大的亮點在於,它允許你使用自然語言來制定 Agent 以及它們之間的互動規則,並且引入了低延時的 Realtime API。所以也就有了上面官方的承諾, 20 分鐘構建一個多 Agents 即時語音應用。
也就是說,即使你沒有專業的程式設計技能,只要你能用清晰的自然語言描述出你想要的各個 Agents 具備的行為和功能,你就可以快速製作一個多 Agents 應用,或者是建立一個代理式工作流,一個工作流中的每個節點都有一個特定的 Agent 待命。
好傢伙,有嘴就行?

話不多說,讓我們先看一下官方提供的示例:

在這個簡單場景裡,一共有兩個 Agent。
一個叫 greeter,可以理解為系統的接待員;
另一個叫 haiku,是一個專門寫三行俳(pái)句詩(日本的一種古典短詩)的 Agent。
連線這個系統:
-
接待員 Agent greeter 就會過來招呼你,問你是否需要來首俳句詩?
-
你回答是的。
-
這時候應用就切換到寫詩的 Agent haiku,向你打招呼,只要提供一個主題,它就可以為你寫詩(上來第一件事就是為你寫詩,有點子浪漫)。
-
你回答 AGI。
-
於是,它就寫下了上面的詩。
那麼,這個浪漫的系統是怎麼定製的呢?其實只需要 3 步:

-
定義 Agents。比如這裡的 greeter 和 haiku,用文字描述他們的姓名、職責(Agent 轉換工具會用)、指令即可,當然你還可以定義它能使用的工具。
-
明確 Agent 的下游響應者。比如 greeter 的下游 Agent 就是 haiku。
-
新增 Agent 轉換工具。也就是換「人」工具,這樣遇到能力範圍外的事時,當前 Agent 就可以自動切換到另一個 Agent 了 ~ 比如這裡把所有 Agents 傳進來就好,方法裡會根據是否有下游來決定是否新增該工具。
Agent 生成工具
上面的還屬於基本操作,這個專案更吸引人的地方其實在於,專案作者 Noah MacCallum 還提供了一個工具,能夠生成高質量的 Agent 指令(這也是引發國外熱議的地方)。

Voice Agent Metaprompter GPT:https://chatgpt.com/g/g-678865c9fb5c81918fa28699735dd08e-voice-agent-metaprompt-gpt
二話不說,用它生成一個導購版小瑤。

回答幾個問題後,它就給出了可以直接作為導購版小瑤 Agent 指令的描述,對應前面 Agent 配置裡的 instructions。

這裡……生成了一個用自然語言描述的對話狀態機?是的,並且每個狀態都有詳細的指令、示例和狀態切換條件,有點東西。
直接把它丟到 ChatGPT 裡簡單測試下效果,正好最近過年了要買年貨 😊。

篇幅有限,這裡只做了簡單的測試,但這個狀態機能夠正確切換,導購版小瑤能夠如此絲滑地給我帶貨,不難想象,這種模式在未來一定有應用價值。小到遊戲裡的角色扮演,大到各種業務系統的實現……
PS:官方還給出了兩個更專業的場景示例,一個是身份驗證系統,一個是零售服務系統,裡面的所有功能和流程都是用自然語言實現的,比如賬號註冊、檢視商品、買單等等,感興趣的小夥伴也可以去試試。
尾聲
這一切突然變得有點夢幻,回到我自己的程式設計師工作中,雖然 AI 可以為我們生成程式碼、解釋程式碼、修復 Bug,但都離不開我們的程式碼要能編譯執行,至少沒有語法錯誤。
而眼下的這個開源專案和附帶的工具,讓我體驗到用自然語言實現業務邏輯也是非常有希望的,而且這更像人類世界的代理概念了,我只要像老闆一樣告訴 Agent 們各自的職責和能力,它們就能作為一個系統協作執行起來。

有人可能會說這是一個黑盒,但我認為這樣的模式才更貼近人類的思考方式和社會的運作模式,我們與 AI Agent 對話,AI Agent 們也各自對話,我們有我們的條約,AI Agent 們也有它們的。
總之,AI 不僅在快速改變我們的生活、工作方式,還在改變我們與 AI 本身的交流方式,我們用好 AI、與 AI 合作的成本將越來越低。AI 正在創造一個新的世界,也許未來世界的畫筆就在你的手上,你準備好了嗎?

掃描二維碼新增小助手微信
關於我們
