覆盤位元組釦子空間開發歷程:瞄準工作場景,做一個Agent系統

大廠團隊開發 AI 產品的樣本。
4 月 18 日週五晚,位元組的 Agent 產品 “釦子空間(space.coze.cn) ” 開啟內測。團隊為此準備不少算力資源,但短短幾小時內,伺服器就被湧入的使用者擠爆。
超出預期的使用者熱情,讓釦子團隊再次驗證一個判斷:使用者一直在等待能用的 AI 產品,去解決工作中的問題。
ChatGPT 讓聊天窗成為大模型應用首選的互動介面。理由是當 AI 足夠聰明,似乎就不需要使用者學習,不用熟悉按鈕和選單、只用自然語言下命令就夠了。
位元組在 2023 年下半年搭起 AI 應用開發平臺 “釦子(Coze)”,讓開發者不需要熟悉複雜的技術能力,就能將自己的資料接入最前沿的大模型,做各式各樣的應用。到 2024 年中,釦子團隊發現,儘管聊天機器人應用成千上萬地出現,從知識問答到情感陪伴,覆蓋幾乎所有熱門的場景,但大多面臨相同的問題:使用者增長難,留存更難。
這是一個產品形態與使用者真實需求形成偏差的案例。聊天介面簡單易用,但對大模型要求極高,導致不論中美都是一兩個通用 AI 聊天應用斷層式領先。釦子團隊發現,平臺上有一類應用的增長和留存明顯更好——嵌入到使用者工作流的大模型應用,針對具體工作場景解決具體問題。
這成為他們去年下半年的工作重點。用大模型改造工作流,在工作場景中完成繁瑣的任務,正是當下行業熱議的 Agent 初始形態。
隨著 o1、Claude 3.5 等模型釋出,Cursor、Devin 等程式設計 Agent 工具驗證使用者對解決複雜任務的 AI 產品有強烈需求。Google、OpenAI 推出 Deep Research 產品,創業公司的 Agent 產品 Manus、Genspark 接連發布,圍繞 “複雜任務 Agent” 的競爭日益激烈。
釦子團隊春節後就在考慮開發類似產品,也就是上週五開啟內測的扣子空間。延續過去積累的經驗,他們重點關注 Agent 解決工作場景複雜問題的能力,產品定位 “與 Agent 一起,開始你的工作”。
這款產品由位元組自研的豆包等國產大模型驅動,提供通用 Agent 入口,支援 MCP(Model Context Protocol)協議,引入多款可以呼叫的工具,包括飛書雲文件、飛書表格等,強化解決工作任務的能力。此外,釦子空間引入專家 Agent 體系。
我們第一時間獲得釦子空間的內測碼,測試了數十個任務,並從釦子團隊內部獲悉了他們開發釦子空間的開發理念和迭代方向。
釦子團隊將這次釋出的產品視作 “打樣” 版本,展示 Agent 如何在工作中解決問題。他們的長期目標是打造一個開放的 Agent 系統:使用者提出需求時,系統能自動排程最合適的一位或多位專家 Agent 協同完成任務。
現在內測的扣子空間 Beta 版,已經可以為使用者解決工作中的問題,但它還是一個初級形態。
釦子空間:一個通用實習生和一批垂直領域專家
釦子團隊給通用 Agent 開發了 “探索模式” 和 “規劃模式”。探索模式與市面上的同類 Agent 產品類似,自動根據使用者需求執行任務。
規劃模式強調輔助人解決問題,而不是完全替代人。使用者提出需求後,它不會立即開始工作,而是先給出任務處理規劃,請使用者確認後再開始行動,執行任務期間,也需要使用者參與。在我們的測試中,規劃模式解決問題的能力明顯更強。
左圖為探索模式,右圖為規劃模式。(左右滑動檢視)
這種開發理念與 OpenAI 的 Deep Research 類似。使用者向 Deep Research 提出需求後,它會讓使用者提問,澄清需求。OpenAI 的研究者認為,大多數使用者不會一次給出自己最完整的需求。
一位釦子團隊人士認為,通用 Agent 像是一個經驗不足的 “實習生”——很難一次完整理解需求,需要不斷與人互動、確認需求,才能搞清楚自己要做什麼,並給出成果。
他們鼓勵多用協作模式,“如果花 30 分鐘甚至更久自動解決問題,最後給出一個不可用的結果,就是浪費時間和資源。”
從我們數十個任務測試來看,釦子空間的通用 Agent 的確像一名 “實習生”。它能理解需求,搜尋公開資料,交出一份可以參考的成果。比如它可以收集豆包大模型研究團隊過去一個月的動向,能關注到前不久負責人的變動,也瞭解最近 “AI Lab 併入 Seed 團隊” 的組織調整。
讓它開發一個提醒喝水的 app,它會先搜尋市面上優秀的同類 app,做功能、設計和應用體驗分析。然後它會給出提示,讓我們根據自己的情況提供具體的功能需求,再繼續往下推進,最後制定最終的 app 開發方案,並附帶一個可以互動的本地網頁檔案。
如果給它上一些強度,比如 “從權威網站搜尋美國從中國進口 T 恤、聖經、運動鞋、抗生素、維生素 C 等產品的關稅”,它會去搜索美國政府相關網站上的公告,但最終結果不太理想,它給出兩個正確答案,其他資訊都有點過時。我們同步測試了 OpenAI 的 Deep Research,表現好一些,但也不是完全正確。
反饋結果時,就算我們沒提出明確要求,釦子空間的 Agent 多數情況會提供一份可以互動的本地網頁檔案,更直觀地呈現結果。
“今天大家的注意力容易散失,結果第一眼得比較亮眼。” 釦子團隊也會讓 Agent 同步輸出文件,“如果使用者覺得視覺化的資訊量不夠,可以去看詳細內容。”
實用理念驅動下,釦子空間引入專家 Agent 體系,當前上線 2 個,覆蓋處理使用者個人資料和處理第三方資料場景。
“使用者研究專家” 是釦子團隊在一次內部研討會中確定的 Agent。無論是產品經理、還是運營,瞭解使用者需求都是工作中的高頻場景。他們邀請位元組的資深用研專家、產品經理等分享處理用研工作的經驗和技巧,讓大模型學習,融入解決任務的流程中。
我們讓它處理智慧眼鏡的使用者訪談記錄,它能從使用者原始的訪談記錄中提煉出規律,然後給出相對細緻的功能開發建議,比如 “日常可佩戴的外觀,避免過於浮誇”,這在原始訪談記錄中很少出現,但有多位使用者訪談中提到 “方便摸魚”。
釦子空間也給使用者研究專家引入特定的資料處理工具。使用者上傳 CSV 檔案後,它會自動解析,然後把資料檔案做成雲端資料庫檔案,讓模型根據使用者的指令做分析。
“華泰 A 股觀察助手” 是釦子團隊與華泰證券聯合孵化的 Agent。他們讓大模型學習如何分析上市公司和發展潛力,將這些專業知識融入到 Agent 的工作流中。為了減少大模型的幻覺,團隊引入專業股票資料庫作為模型優先使用的工具。
我們讓它分析了 “中美關稅博弈,對寧德時代未來一段時間的影響是什麼?” 它拆解成六個步驟:搜尋中國關稅博弈的具體內容、研究關稅的傳導機制、獲取股價資料、分析股價走勢、分析未來影響,撰寫報告。
經過約 40 分鐘的工作,它交出一份報告,從原材料、產品出口等方面分析,關稅衝突可能會怎樣影響寧德時代的業績,並給寧德時代提出應對關稅衝擊的策略。它建議寧德時代拓展歐洲、東南亞等新興市場,加速研發高能量密度、低成本電池技術等。整體來看,Agent 引用的資料和內容多數內容準確,但會存在一些幻覺。
背靠釦子、打通飛書,在位元組業務體系中開發新品
釦子團隊的實用主義理念貫穿產品開發始終。他們認為現階段沒有產品能完全 “壓榨” 大模型的效能,更看重解決使用者工作中遇到的實際問題。
“釦子是個開放的平臺,如果國內有大模型效果比豆包好,我們也會積極使用。” 釦子團隊開發釦子空間時,豆包深度思考模型還沒釋出,他們曾考慮優先使用 DeepSeek-R1,測試後發現它呼叫工具的能力不夠。
後來團隊又對比六款國內大模型,使用了豆包 1.5 Pro 為主的多款模型。因為豆包在指令遵循、呼叫工具,以及多模態處理能力上表現最好,而且推理成本很低,能支撐大規模呼叫。
作為位元組的一部分,釦子團隊不僅能參考行業公開經驗,還能從釦子平臺上 200 多萬款 AI 應用和上百萬活躍開發者的反饋瞭解趨勢。釦子平臺還與火山引擎打通,開發者的 AI 應用也可以一鍵部署到豆包、飛書、抖音小程式中。
這不能直接幫他們從 0 到 1 創造新的產品形態,但好的產品想法得到驗證時,他們能夠較早發覺。去年下半年釦子團隊把業務中心從聊天機器人轉向工作流,並把釦子空間的重點放在人與 Agent 的協作上,都有相關的資料支撐。
釦子推出的大模型應用除錯工具 “釦子羅盤”,讓團隊能近距離觀察大量 AI 應用的開發、調優和部署過程,積累經驗,更有效地發揮大模型效能。這是釦子團隊能迅速開發出複雜 Agent 產品的原因之一。
給 Agent 引入協作工具時,他們也有優勢。市面上很多 AI 工具接入飛書,也有開發者做飛書的 MCP,但它們只能與飛書整體的 API 互動。
MCP 是 Anthropic 在 2024 年提出的協議,用統一的方式,把現有軟體變成大模型可以直接呼叫的 “工具”。它相當於給傳統軟體加一個 “介面”,讓模型能更方便地使用這些工具。現在,越來越多公司支援 MCP,但多數是作為工具的使用方增強自己 AI 產品的能力,而不是把產品開放出來、做成 MCP 工具供別人呼叫。
因為是位元組的團隊,他們把 MCP 把飛書雲文件、飛書表格、飛書多維表格做成工具。“還做了一些創新。” 釦子團隊說,MCP 本質上還是一種 API Key,要實現這個功能還要做一層身份認證。
使用者授權後,Agent 可以呼叫飛書文件裡的內容來解決問題,並把處理結果寫回到飛書文件中。這意味著使用者無需手動上傳檔案或整理資料,Agent 就能訪問使用者有許可權的公司內部文件,完成任務的過程更順暢、也更貼近實際工作流。能夠訪問私有資料,也是業內公認能夠提升 Agent 能力的關鍵。
對於現在的 Agent 產品,基礎模型已經很難形成差異,理論上任何開發者都可以呼叫最領先的模型;產品框架差別也沒有那麼大,開源抹平大多數公司的技術差距。真正的壁壘,可能在於它能否呼叫更有價值的資料或工具去解決問題。
目標是 Agent 系統,使用者反饋比完美的產品更重要
釦子團隊自己也認為,當前上線的扣子空間還不算成熟的產品。“但時間是最重要的。” 他們認為現在已經到了必須上線的節點,才能儘快得到更多反饋,迅速迭代產品。
更多使用者使用並不能直接提升模型本身的能力,在大模型行業已經形成共識。比如 Anthropic 推出 Claude 3.5、DeepSeek 釋出 DeepSeek-R1 前,都沒有積累太多使用者。
但這隻限於 “模型-使用者” 迴圈,複雜的 Agent 在模型和使用者之間增加了足夠厚的產品層。

“大量使用者的真實反饋對 Agent 開發至關重要。” 釦子團隊說,“這有助於改進產品功能,提升使用者體驗,更好地挖掘基礎模型的能力。”

在釦子團隊的產品路線圖中,現在內測的扣子空間還是初級形態。團隊從釦子平臺數據分析中發現,許多應用解決的需求都是小眾且個性化的——使用者量不大,但使用頻率穩定。這像是金融風險專家納西姆·塔勒布(Nassim Taleb)提出的 “肥尾效應” 的一種體現。
在他們看來,基礎模型能力提升的確會吞併部分產品或功能,但使用者個性化的需求很難被通用大模型完全滿足,“可能只能做 90% 或者 99%,總會差上那麼一點”。所以釦子空間的目標是打造 “通用 Agent 和專家 Agent 協作的系統”——這也是他們取名 “空間” 的原因之一。
釦子空間只是大廠加入 Agent 競爭的序幕。我們瞭解到,現在國內幾乎所有的大廠都在積極開發 Agent 產品,釦子空間只是行動較快的之一。競爭才剛剛開始。
文內提及的扣子空間測試案例回放連結:
豆包大模型研究的詳細動向整理
https://space.coze.cn/s/yJ8eXbNzbj4/
開發喝水提醒 app
https://space.coze.cn/s/uus-6nMBve4/
搜中國商品關稅資訊
https://space.coze.cn/s/HY18T8UqZkE/
總結訪談記錄提產品建議
https://space.coze.cn/s/0zbuSiRdQnk/
中美關稅博弈對寧德時代影響
https://space.coze.cn/s/NXMYcXaqu5U/
題圖來源:《千鈞一髮》
 FIN 

相關文章