OpenAI又開源了!不用程式碼就能構建複雜多Agents即時語音協作系統

MLNLP

社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。


社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
轉載自 | 夕小瑤科技說
就在前幾天,OpenAI 又雙叒叕悄悄釋出了一個開源專案 openai-realtime-agents,這玩意兒是基於 Realtime API 整出來的一個多 Agents 語音應用示例。有了它,只要 20 分鐘,屬於自己的多 Agents 語音應用,你也能帶回家!
Github: 
https://github.com/openai/openai-realtime-agents
在一位大佬分享了其“狀態機 Prompt”的概念後,平臺上的網友已經在瘋狂議論了。
有的讚歎不已 👏:
也有的表示不屑,自己早有過這樣的嘗試:
還有的則更看好低程式碼或全程式碼形式的 workflow 🤔:
也有執行力強的網友已經開始執行專案了 👍:
另有大佬表示,這次的專案預示著超級人工智慧的產生,他還猜測 OpenAI 內部已經訓練出了博士水平的模型,將與此專案非常契合:
看到網友們如此興奮,鼠鼠我呀,也躍躍欲試想探個究竟了 ~

多 Agents 語音應用示例

在以前,我們知道,要制定一個 Agent、搭建多 Agents 應用、實現多 Agents 之間的互動,往往需要複雜的程式設計知識和大量的開發工作,比如 MetaGPT、CrewAI、XAgent、微軟的 AutoGen。你不僅要精通各種程式語言、開發環境搭建,還需要對 Agent 規則制定等方面有一定的瞭解。
而這個專案最大的亮點在於,它允許你使用自然語言來制定 Agent 以及它們之間的互動規則,並且引入了低延時的 Realtime API。所以也就有了上面官方的承諾, 20 分鐘構建一個多 Agents 即時語音應用。
也就是說,即使你沒有專業的程式設計技能,只要你能用清晰的自然語言描述出你想要的各個 Agents 具備的行為和功能,你就可以快速製作一個多 Agents 應用,或者是建立一個代理式工作流,一個工作流中的每個節點都有一個特定的 Agent 待命。
好傢伙,有嘴就行?
話不多說,讓我們先看一下官方提供的示例:
在這個簡單場景裡,一共有兩個 Agent。
一個叫 greeter,可以理解為系統的接待員;
另一個叫 haiku,是一個專門寫三行俳(pái)句詩(日本的一種古典短詩)的 Agent。
連線這個系統:
  1. 接待員 Agent greeter 就會過來招呼你,問你是否需要來首俳句詩?
  2. 你回答是的。
  3. 這時候應用就切換到寫詩的 Agent haiku,向你打招呼,只要提供一個主題,它就可以為你寫詩(上來第一件事就是為你寫詩,有點子浪漫)。
  4. 你回答 AGI。
  5. 於是,它就寫下了上面的詩。
那麼,這個浪漫的系統是怎麼定製的呢?其實只需要 3 步:
  1. 定義 Agents。比如這裡的 greeter 和 haiku,用文字描述他們的姓名、職責(Agent 轉換工具會用)、指令即可,當然你還可以定義它能使用的工具。
  2. 明確 Agent 的下游響應者。比如 greeter 的下游 Agent 就是 haiku。
  3. 新增 Agent 轉換工具。也就是換「人」工具,這樣遇到能力範圍外的事時,當前 Agent 就可以自動切換到另一個 Agent 了 ~ 比如這裡把所有 Agents 傳進來就好,方法裡會根據是否有下游來決定是否新增該工具。

Agent 生成工具

上面的還屬於基本操作,這個專案更吸引人的地方其實在於,專案作者 Noah MacCallum 還提供了一個工具,能夠生成高質量的 Agent 指令(這也是引發國外熱議的地方)。
Voice Agent Metaprompter GPT: 
https://chatgpt.com/g/g-678865c9fb5c81918fa28699735dd08e-voice-agent-metaprompt-gpt
二話不說,用它生成一個導購版小瑤。
回答幾個問題後,它就給出了可以直接作為導購版小瑤 Agent 指令的描述,對應前面 Agent 配置裡的 instructions。
這裡……生成了一個用自然語言描述的對話狀態機?是的,並且每個狀態都有詳細的指令、示例和狀態切換條件,有點東西。
直接把它丟到 ChatGPT 裡簡單測試下效果,正好最近過年了要買年貨 😊。
篇幅有限,這裡只做了簡單的測試,但這個狀態機能夠正確切換,導購版小瑤能夠如此絲滑地給我帶貨,不難想象,這種模式在未來一定有應用價值。小到遊戲裡的角色扮演,大到各種業務系統的實現……
PS:官方還給出了兩個更專業的場景示例,一個是身份驗證系統,一個是零售服務系統,裡面的所有功能和流程都是用自然語言實現的,比如賬號註冊、檢視商品、買單等等,感興趣的小夥伴也可以去試試。

尾聲

這一切突然變得有點夢幻,回到我自己的程式設計師工作中,雖然 AI 可以為我們生成程式碼、解釋程式碼、修復 Bug,但都離不開我們的程式碼要能編譯執行,至少沒有語法錯誤。
而眼下的這個開源專案和附帶的工具,讓我體驗到用自然語言實現業務邏輯也是非常有希望的,而且這更像人類世界的代理概念了,我只要像老闆一樣告訴 Agent 們各自的職責和能力,它們就能作為一個系統協作執行起來。
有人可能會說這是一個黑盒,但我認為這樣的模式才更貼近人類的思考方式和社會的運作模式,我們與 AI Agent 對話,AI Agent 們也各自對話,我們有我們的條約,AI Agent 們也有它們的。
總之,AI 不僅在快速改變我們的生活、工作方式,還在改變我們與 AI 本身的交流方式,我們用好 AI、與 AI 合作的成本將越來越低。AI 正在創造一個新的世界,也許未來世界的畫筆就在你的手上,你準備好了嗎?
技術交流群邀請函
△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。

相關文章