克雷西 一水 發自 凹非寺量子位 | 公眾號 QbitAI
“位元組版Manus”有多能打?量子位實測在此。

△釦子智慧體生成的活動介紹網頁
我們用光了一天的對話額度,考驗了釦子空間(Coze Space)的資訊整理、任務執行、工具呼叫等多項技能。
結果,仍處在早期測試中的扣子空間整體表現已經相當驚豔,在自主任務規劃和資料蒐集方面表現不錯,已經具備解決很多真實任務的潛力。
不過在指令遵循方面,還是比較“有自己的想法”。

簡單介紹一下,釦子空間是位元組在剛剛過去的週末推出的智慧體協作系統,官方主打“你和AI Agent協同辦公的最佳場所”。
由於放出來的demo效果驚豔,過去幾天裡還出現了擠爆伺服器的場面。

而第一波拿到邀請碼的幸運兒,在體驗後也第一時間分享了使用感受:
對比智慧體確實是一個大飛躍。

更適合用來分析報告,主要作用是幫助使用者搭起整體框架。

當然,作為幸運兒之一,我們也趕緊進行了一波實測。
有腦有手的通用智慧體
釦子平臺的通用智慧體,分成了探索和規劃兩種模式,官方的介紹是這樣的:

實際用下來的話,探索模式更注重效率,而規劃模式則會對任務進行詳細拆分,條理更加清晰。
自動整理蒐集資訊,一句話製作網頁/PPT
先來看探索模式,我們讓它整理了一下波音747系列飛機的發展歷程。
可以看到,智慧體根據給出的話題自行擴充套件延伸了許多搜尋詞並執行了檢索,最後形成了一份文字報告。

利用整理好的資料,可以直接製作出一個網頁(或者PPT也可以),頁面包含了比較豐富的內容,排布簡潔,美觀性也說得過去。

並且除了文字內容,生成網頁時智慧體還補充了產量統計圖和關鍵時間線。

有腦還有手,自主規劃執行任務
在規劃模式下,釦子智慧體不僅會整理資料,還支援在虛擬沙盒環境中操縱電腦、瀏覽網頁,執行訂票等操作。
比如我們讓它幫忙訂一張明天(23日)下午從北京到上海的高鐵票。
比較有意思的是,智慧體一開始的動作是搜尋高鐵票該怎麼訂,不清楚是模型自己真的不知道,還是這裡強制設定了檢索過程,但總之,如果真遇到不會的技能,透過檢索來彌補也不失為一種策略。

12306平臺需要登入才能進行訂票,智慧體能夠準確識別到這種狀況,並提示我們手動接管。

不過,可能是沙盒環境受到了限制,在執行檢索之後頁面並未顯示結果,因此整個流程未能順利完成。

但從智慧體的操作過程來看,網頁資訊識別和規劃執行能力已經很不錯了。
接入MCP,智慧體不再“孤軍奮戰”
除此之外,釦子也支援MCP協議,並接入了飛書文件、GitHub、MySQL資料庫、天氣、地圖等一系列MCP應用。

於是結合MCP,我們來整個大活。
上週,量子位中國AIGC產業峰會2025成功舉行,我們將其會議流程和嘉賓資訊整理到了一份文件當中,要求智慧體將這些材料整理出一份網頁版會議指南。
並且還呼叫了地圖、天氣和語音合成三個MCP外掛,在網頁中加入天氣預報、交通指南和嘉賓介紹語音播報。

可以看到,智慧體首先利用工具從文件中提取出文字,然後透過MCP協議調取了天氣、地圖等資訊。

由於任務比較複雜,製作耗時也比較長,第一版成品長這樣:

這個版本,要求的內容都有呈現,但是活動流程沒有遵循要求的格式,天氣預報的日期也不對。
所以我們針對這兩點要求智慧體進行修改,修改的過程沒有一步到位,而是經過了多輪調整。
以及到後面修改的過程才發現,釦子智慧體一開始偷懶並沒有合成嘉賓介紹的語音,只是在網頁裡放了按鈕,單獨指出之後才開始合成。
不過最終還是得到了符合期待的頁面,該有的內容都正常展現,滑動和點選檢視詳情的功能都成功實現,合成的音訊也能正常播放。

雖然整體經歷了不短的時間,但對於一個完全不懂網頁製作的使用者而言,釦子智慧體已經很好地解決了工具有無的問題。
在時間上,一個可以改進的方向是讓可以並行進行的任務同時進行,比如這個任務當中的語音合成實際上是獨立於網頁設計的,而智慧體目前採用的是序列方式,帶來了不少的額外耗時。
總結一下,作為一個通用智慧體,釦子智慧體的任務規劃比較合理,資料蒐集能力也表現不錯,不過在指令遵循方面,還是比較“有自己的想法”。
當然作為通用智慧體,優先考量是提升技能的豐富度,儘可能覆蓋更多的任務,所以在具體任務細節上,也還有不少提升空間。
更懂行的專家智慧體
所以,在通用Agent之外,釦子空間還提供了「專家模式」。
Beta測試版首頁,目前有兩個專家Agent:
-
使用者研究專家:模型學習了位元組資深用研專家、產品經理等分享的用研工作技巧; -
華泰A股觀察助手:釦子團隊與華泰證券聯合孵化的Agent,讓模型學習瞭如何分析上市公司和發展潛力等專業知識。

我們實測下來發現,吸收了更多私人資料和第三方資料的專家Agent,在實用性方面確實大有提升,尤其在面對複雜任務過程中易出錯的問題,它總是能自主發現錯誤並不斷嘗試更正。
不過由於涉及的領域確實比較專業,任務耗時也大大增加,類似股票分析的任務往往需要執行幾十分鐘。
以下為具體實測過程。
0產品經驗也能做出完整使用者調研
假如有一個新入行的產品經理,想要設計一個北京地區的戶外活動APP,需要對使用者需求進行調研。
儘管沒有工作經驗,也可以使用簡單描述來生成一份使用者訪談提綱。

實測不到1分鐘,這個Agent就生成了一份可下載的Markdown文件,10個問題基本覆蓋了我們想要調研的需求。

然後我們又繼續在輸入框中下達新指令:
再幫我生成一份調研問卷。
從思考過程可以看到,面對一個比較模糊的需求,它能透過自主規劃(設計約30個問題的調研問卷)進一步明確任務。

而且評估其生成效果,從一名資深戶外運動愛好者的角度來看,這份調研報告可謂非常完整——
7個大類、30個小問題,從使用者基本資訊到戶外運動參與情況、活動資訊與獲取等等,均考慮到了。

接下來,鑑於我們目前缺少真實問卷結果,所以又給它扔了個“麻煩”:
能直接幫我生成一份虛擬完整使用者調研資料,並最終生成一份使用者分析報告嗎?
大約幾分鐘後,這個Agent自己生成了一份虛擬使用者資料:

橫向標準項需要長時間拖動才能看完整,豎向共有100條資料:

當然,過程中Agent也自己發現了錯誤,並多次嘗試更正。


最終,基於虛擬資料,Agent確實生成了一份可下載的完整使用者畫像報告。

整體而言,這個使用者研究Agent具備問卷資料分析、訪談紀要總結、調研問卷生成、訪談提綱生成這四大能力,即使零產品經驗也能透過持續對話實現自己的調研需求。

每天都能收到專屬股票早報
而另一個股票專家Agent,由於涉及的領域比較複雜,官網顯示平均任務耗時為42分鐘。

能做的事兒包括下面這些:

這裡我們簡單測試了其早報生成功能。
支援選定3支關注的股票(這裡就不具體展示選了哪些了),以及三個關注的板塊,然後給出當日A股早報。

有意思的是,相比之前的使用者調研Agent,這個智慧體則更加謹慎了,過程中還需要使用者手動確認其階段性完成情況,然後才繼續執行。

而且整個過程蒐集了大量資料:

不過比較遺憾的是,截至發稿前(已經跑了一個多小時),可能由於伺服器資源問題,暫時沒有跑出最終結果。


然而,從其他網友對該智慧體的測試來看,據稱效果驚豔。
(股票功能)實測蠻驚豔的

小結一下,相比通用Agent,專家Agent在實用性方面確實更勝一籌。
就產品的初步設計來看,和“釦子空間”這個名字相呼應,釦子團隊希望打造一個“通用Agent和專家Agent協作的系統”。
不過按照釦子團隊的長期設想,最終目標則還是打造一個開放的Agent系統——
當用戶提出需求時,系統能自動排程最合適的一位或多位專家Agent協同完成任務。
而拋開長遠不談,僅就當下這個測試版釦子空間而言,得益於它在自主規劃和任務驅動方面的加強,對於絕大多數實際情況,它已經是一個可以上手、能用的Agent系統了。
One More Thing
這一次,位元組在釦子空間上還搞了一波“裂變玩法”。
我們實測過程中發現,在執行完第一個任務之後,還可以得到五個邀請碼。

並且當五個邀請碼全部用完後,還能獲得更多邀請資格。
所以相比其他家那種完全封閉的測試,釦子空間的體驗資格也更容易獲得。

最後,有獲得邀請碼的童鞋來說說你的使用體驗嗎?
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
🌟 點亮星標 🌟