12月18日,火山引擎Force冬季大會在上海舉行,字節跳動正式釋出豆包視覺理解模型,千tokens輸入價格僅為3釐,一元錢就可處理284張720P的圖片,比行業價格便宜85%,以更低成本推動AI技術普惠。
豆包戰略研究負責人周昊發表演講,分享豆包在生活、學習和工作等各類場景中的廣泛應用。
他表示,作為一款通用型AI產品,豆包致力於去滿足不同使用者具體且真實的需求,讓使用者像開口問身邊的朋友一樣快捷方便地和豆包溝通,真正做到什麼都問問豆包。
周昊在大會現場
以下是周昊演講全文:
大家好,我是周昊。
過往公司做App在早期階段的心得是把最關鍵的使用者需求解決到非常好。比如抖音是影片創作和分享、頭條是看新聞、飛書是協同辦公等等。
但對於大模型產品,好像很難定義哪一個是“最關鍵的使用者需求”。因為它天生就是一個通用型產品,每個使用者開啟它時,想要解決的問題都不一樣。因此,我們要做的是滿足好不同使用者在不同場景下的需求。
在豆包發展過程中,我們做了很多使用者訪談,也發現了各種不同的下載理由及使用場景。AI 產品很神奇的地方是,它真的能夠同時滿足這些看上去非常不同的需求。
日常生活“問問豆包”
比如,日常生活裡各種知識和經驗問答,豆包總能快速為使用者答疑解惑。最近上海到了銀杏季節,一位使用者說,他問豆包“上海哪裡可以看銀杏?”,豆包很快就列出了市中心和郊區的觀賞地及特點,並配上了銀杏樹的照片和路線影片攻略,非常方便。

今年,黑神話悟空特別火,帶動了山西旅遊,很多人去山西看佛像。使用者訪談中大家提到,在山西逛博物館時,就會請豆包介紹一下北魏的佛像風格;講講中國佛像藝術在歷史中的演化過程。藉助豆包,旅遊時對歷史文物的瞭解就不再侷限於展牌上的簡短介紹,可以深入展品背後的歷史故事與文化內涵。
也有朋友嘗試把體檢報告拍給豆包。他說心電圖報告裡不少專業術語和符號,他嘗試豆包拍圖解讀,把醫學術語翻譯成淺顯易懂的語言,更方便自己理解。
教育學習“問問豆包”
生活之外,很多使用者反饋,豆包也能很快很好的滿足學習和教育的各種需求。身邊有不少朋友近幾年成為了新手爸媽,他們嘗試用豆包解決新的家庭教育難題。

比如一些奧數題,小朋友沒什麼思路,家長也不太知道該怎麼講解,就請豆包給小朋友解答。豆包還能提供詳盡的解題步驟,引導小朋友理解題目解法。如果小朋友對某類題目掌握的不太牢固,家長還會請豆包再給小朋友出幾道同類知識點題目鞏固練習。
英語口語練習也是大家很喜歡的教育場景。使用者反饋說,豆包的發音、詞彙量、句型都遠遠超過他自己。透過豆包即時語音通話功能,和豆包一來一回練英語,毫不尷尬,也省了請老師輔導的開銷。此外,生成的英語對話還配有字幕,退出後還可以複習。
工作中“問問豆包”
當然,最近聽到最多的,就是在工作場景「問問豆包」。今天現場很多聽眾都是AI行業相關的從業者,AI發展很快,經常需要閱讀前沿論文補充認知。論文,就是很多使用者“問問豆包”的高頻場景。大家不僅可以讓豆包總結,劃詞解釋專業名詞,還可以多追問,不論是圖片還是實驗資料,都可以截圖問問豆包,它都能給出清晰的圖表解釋和實驗含義。

最近豆包大模型團隊發表了一篇關於影像編輯的論文,非技術背景的同事讀起來有點吃力。我們可以開啟豆包電腦版,上傳論文,點選預設提示詞,豆包就可以生成清晰的腦圖和總結,幫助我們快速理解論文框架,提煉核心資訊。有了豆包的幫助,閱讀論文的門檻大大降低,非專業人士也能更快了解關鍵資訊。

此外,文字、圖片、音樂、影片的創作上,大家也都會問問豆包。
前段時間,豆包上線了一鍵生成帶有指定文字圖片的功能。我們設計同學就用豆包直接生成了一張海報,發在了豆包官號上,效果還不錯。同事們開玩笑說,豆包自食其力,自己努力宣傳自己。

後來設計同學告訴我,其實現在他們做設計,第一反應也都是“問問豆包”。豆包做圖很快,也不會因為最後重新選回第一版而不滿。雖然它給的方案不完美,但也能提供不少思路和靈感,減少許多前置的工作,提升工作效率。
使用者的故事還有更多,我們問自己,為什麼大家在遇到問題時都願意選擇豆包呢?我覺得答案應該是
問問豆包最快

在產品設計上,我們一直在努力,讓使用者的輸入更快更方便。我們非常注重多模態的輸入和打磨,尤其是語音輸入。輸入速度上來說,普通人的打字速度大概是每分鐘60到80個字,而普通人的語速每分鐘可以到250至300字。如果你有主持人華少的說話速度,甚至可以達到每分鐘400字。所以一般情況下,語音輸入效率至少是鍵盤輸入的3倍以上。語音的效率天然更高,更快。

同時,豆包的語音能準確轉錄各種語音訊號,識別不同語言、方言、口音。我們有個產品經理是廣東人,他很喜歡給豆包發粵語,豆包也能識別的不錯。大家如果用的多,還會發現豆包對於人名、生詞,也能結合上下文做出準確分析。當然,這背後都是基於豆包語音識別大模型的強大能力。這個語音模型在火山引擎也已經發布,有興趣的朋友可以聯絡火山購買。
這些能力儲備讓使用者像開口問身邊朋友一樣和豆包交流,真正做到什麼都問問豆包。
語音以外,我們也上線了視覺識別模型。前面提到的不管是讀心電圖、還是拍奧數題,都依靠視覺輸入。人和世界的溝通中,視覺是很重要的一環。相比用語言描述心電圖上的複雜資訊,直接拍下來問問豆包,肯定更快更方便。
其次,豆包離使用者場景更近,更快。大家知道,我們在今年釋出了AI智慧體耳機Ola Friend。這樣輕便的可穿戴裝置,讓豆包能夠成為使用者耳邊伴隨的朋友,在路上隨時和豆包對話,最快。運動,逛街,旅行時,使用者無需再拿出手機或其他裝置,直接透過耳機就能和豆包對話,快速獲取資訊。這種無縫連線的互動方式,讓豆包真正成為了使用者身邊的智慧夥伴,陪伴使用者度過每一個需要知識和幫助的時刻。

今年我們還重點建設了豆包電腦版。大家可以把電腦版當成瀏覽器,直接開啟網頁。在瀏覽中遇到需要提問、翻譯或總結時,直接點選“問問豆包”,就能輕鬆喚起,獲得幫助。
我們也即將上線“文件編輯器”功能,採取全新的互動方式,生成文件後,使用者可以在畫布中自由編輯,讓AI針對特定詞語和段落最佳化改寫,也可以一鍵全文潤色、調整長度,全網搜圖等,讓創作更輕鬆。

最後,在看不到的地方,模型能力讓問問豆包成為最快的解決方式。
當用戶提出較為複雜的搜尋或寫作需求時,豆包快速識別使用者意圖,推理並拆解內容,再進行多步驟分析和推理,並調度搜索,呈現總結後的結果。同時,豆包還能將搜尋到的文字資訊與影片內容相結合,為使用者提供更加豐富和直觀的體驗。

在快的背後,是模型幫助使用者做了意圖識別、資訊收集、處理、整合和分析。

雖然使用者帶著不同需要開啟豆包,但因為大模型應用能解決非常廣泛的問題,使用者在使用中也會逐漸發現更多的場景。
雖然AI是一個非常前沿的話題,但一款AI產品的成長,是需要走進真實的使用者與真實的生活中的。工具是有限的,但人對探索、求知和美好生活的追求是無限的。
最近,我很喜歡一句話,我們要愛具體的人,做具體的事,過具體的生活。
一款AI產品也是一樣,去滿足具體且真實的需求,去關心使用者具體且真實的生活。
歡迎大傢什麼都來問問豆包,我們也會努力完善豆包,創造更好更快的體驗,為生活帶來更多美好。
謝謝大家。