什麼都問問豆包，問問豆包最快

12月18日，火山引擎Force冬季大會在上海舉行，字節跳動正式釋出豆包視覺理解模型，千tokens輸入價格僅為3釐，一元錢就可處理284張720P的圖片，比行業價格便宜85％，以更低成本推動AI技術普惠。

豆包戰略研究負責人周昊發表演講，分享豆包在生活、學習和工作等各類場景中的廣泛應用。

他表示，作為一款通用型AI產品，豆包致力於去滿足不同使用者具體且真實的需求，讓使用者像開口問身邊的朋友一樣快捷方便地和豆包溝通，真正做到什麼都問問豆包。

周昊在大會現場

以下是周昊演講全文：

大家好，我是周昊。

過往公司做App在早期階段的心得是把最關鍵的使用者需求解決到非常好。比如抖音是影片創作和分享、頭條是看新聞、飛書是協同辦公等等。

但對於大模型產品，好像很難定義哪一個是“最關鍵的使用者需求”。因為它天生就是一個通用型產品，每個使用者開啟它時，想要解決的問題都不一樣。因此，我們要做的是滿足好不同使用者在不同場景下的需求。

在豆包發展過程中，我們做了很多使用者訪談，也發現了各種不同的下載理由及使用場景。AI 產品很神奇的地方是，它真的能夠同時滿足這些看上去非常不同的需求。

日常生活“問問豆包”

比如，日常生活裡各種知識和經驗問答，豆包總能快速為使用者答疑解惑。最近上海到了銀杏季節，一位使用者說，他問豆包“上海哪裡可以看銀杏？”，豆包很快就列出了市中心和郊區的觀賞地及特點，並配上了銀杏樹的照片和路線影片攻略，非常方便。

今年，黑神話悟空特別火，帶動了山西旅遊，很多人去山西看佛像。使用者訪談中大家提到，在山西逛博物館時，就會請豆包介紹一下北魏的佛像風格；講講中國佛像藝術在歷史中的演化過程。藉助豆包，旅遊時對歷史文物的瞭解就不再侷限於展牌上的簡短介紹，可以深入展品背後的歷史故事與文化內涵。

也有朋友嘗試把體檢報告拍給豆包。他說心電圖報告裡不少專業術語和符號，他嘗試豆包拍圖解讀，把醫學術語翻譯成淺顯易懂的語言，更方便自己理解。

教育學習“問問豆包”

生活之外，很多使用者反饋，豆包也能很快很好的滿足學習和教育的各種需求。身邊有不少朋友近幾年成為了新手爸媽，他們嘗試用豆包解決新的家庭教育難題。

比如一些奧數題，小朋友沒什麼思路，家長也不太知道該怎麼講解，就請豆包給小朋友解答。豆包還能提供詳盡的解題步驟，引導小朋友理解題目解法。如果小朋友對某類題目掌握的不太牢固，家長還會請豆包再給小朋友出幾道同類知識點題目鞏固練習。

英語口語練習也是大家很喜歡的教育場景。使用者反饋說，豆包的發音、詞彙量、句型都遠遠超過他自己。透過豆包即時語音通話功能，和豆包一來一回練英語，毫不尷尬，也省了請老師輔導的開銷。此外，生成的英語對話還配有字幕，退出後還可以複習。

工作中“問問豆包”

當然，最近聽到最多的，就是在工作場景「問問豆包」。今天現場很多聽眾都是AI行業相關的從業者，AI發展很快，經常需要閱讀前沿論文補充認知。論文，就是很多使用者“問問豆包”的高頻場景。大家不僅可以讓豆包總結，劃詞解釋專業名詞，還可以多追問，不論是圖片還是實驗資料，都可以截圖問問豆包，它都能給出清晰的圖表解釋和實驗含義。

最近豆包大模型團隊發表了一篇關於影像編輯的論文，非技術背景的同事讀起來有點吃力。我們可以開啟豆包電腦版，上傳論文，點選預設提示詞，豆包就可以生成清晰的腦圖和總結，幫助我們快速理解論文框架，提煉核心資訊。有了豆包的幫助，閱讀論文的門檻大大降低，非專業人士也能更快了解關鍵資訊。

此外，文字、圖片、音樂、影片的創作上，大家也都會問問豆包。

前段時間，豆包上線了一鍵生成帶有指定文字圖片的功能。我們設計同學就用豆包直接生成了一張海報，發在了豆包官號上，效果還不錯。同事們開玩笑說，豆包自食其力，自己努力宣傳自己。

後來設計同學告訴我，其實現在他們做設計，第一反應也都是“問問豆包”。豆包做圖很快，也不會因為最後重新選回第一版而不滿。雖然它給的方案不完美，但也能提供不少思路和靈感，減少許多前置的工作，提升工作效率。

使用者的故事還有更多，我們問自己，為什麼大家在遇到問題時都願意選擇豆包呢？我覺得答案應該是

問問豆包最快

在產品設計上，我們一直在努力，讓使用者的輸入更快更方便。我們非常注重多模態的輸入和打磨，尤其是語音輸入。輸入速度上來說，普通人的打字速度大概是每分鐘60到80個字，而普通人的語速每分鐘可以到250至300字。如果你有主持人華少的說話速度，甚至可以達到每分鐘400字。所以一般情況下，語音輸入效率至少是鍵盤輸入的3倍以上。語音的效率天然更高，更快。

同時，豆包的語音能準確轉錄各種語音訊號，識別不同語言、方言、口音。我們有個產品經理是廣東人，他很喜歡給豆包發粵語，豆包也能識別的不錯。大家如果用的多，還會發現豆包對於人名、生詞，也能結合上下文做出準確分析。當然，這背後都是基於豆包語音識別大模型的強大能力。這個語音模型在火山引擎也已經發布，有興趣的朋友可以聯絡火山購買。

這些能力儲備讓使用者像開口問身邊朋友一樣和豆包交流，真正做到什麼都問問豆包。

語音以外，我們也上線了視覺識別模型。前面提到的不管是讀心電圖、還是拍奧數題，都依靠視覺輸入。人和世界的溝通中，視覺是很重要的一環。相比用語言描述心電圖上的複雜資訊，直接拍下來問問豆包，肯定更快更方便。

其次，豆包離使用者場景更近，更快。大家知道，我們在今年釋出了AI智慧體耳機Ola Friend。這樣輕便的可穿戴裝置，讓豆包能夠成為使用者耳邊伴隨的朋友，在路上隨時和豆包對話，最快。運動，逛街，旅行時，使用者無需再拿出手機或其他裝置，直接透過耳機就能和豆包對話，快速獲取資訊。這種無縫連線的互動方式，讓豆包真正成為了使用者身邊的智慧夥伴，陪伴使用者度過每一個需要知識和幫助的時刻。