豆包App灰度最新語音模式,實現了GPT-4o不會的唱歌

  語音通話功能的提升,
讓AI落地的場景不止教培和客服。
周鑫雨
編輯蘇建勳
來源|智慧湧現(ID:AIEmergence)
封面來源視覺中國
2025年,豆包的第一更,放在了語音通話功能上。
2025年1月20日,豆包釋出了最新的“端到端”語音大模型,並基於該模型更新豆包APP的即時語音通話功能。
此前,豆包語音通話功能採用的是ASR(自動語音識別)+LLM(大語言模型)+TTS(文生音訊)的級聯方案。如今更新的端到端語音大模型,是將語音識別、理解和生成,都放在同一個模型中解決。
智慧湧現”測試,更新語音模型後的豆包,最大的亮點在於,豆包在語音互動時,把類似人類的表達形式和情感輸出,復刻了出來。與此同時,新版本的對話流暢度和智商情商,也有大幅提升。
比如,豆包上新的“靈魂歌手”和“百變大咖”等語音通話模式,比GPT-4o還搶先一步,實現了唱歌和角色扮演。
豆包更新的語音通話模式。

豆包學會了唱歌,和角色扮演

豆包一個大變化,是把語音的角色扮演能力,拓展到了明星、書中和影視中的角色。這一功能,也體現在了豆包語音通話的“百變大咖”模式中。
比如當作者提出“模仿虞書欣的聲音說話,並且說一段新年祝福”,豆包一句“哼,我才不要模仿她呢!我就是我,不一樣的煙火”,就把“小作精”的勁兒還原出來了。
而且豆包的上下文記憶能力也相當不錯。當我在同一段對話中嘗試了宋丹丹、林黛玉、甄嬛等角色,再次要求豆包模仿虞書欣時,它立馬委屈上了:“怎麼又讓我模仿她呀?”
當下,市面上多數語音模型的歌曲創作,還需要使用者輸入較為專業的文字Prompt,或者需要先基於使用者輸入的文字音訊,進行譜曲,無法在自然的語音互動中,做到“張口就來”。
豆包這次上線的“靈魂歌手”模式,就能讓豆包在聊天中,隨口把歌唱了。
比如讓豆包唱一首節奏歡快的歌,它張口就來了一曲Taylor Swift的《Love Story》,不過缺點是把歌名說成了“Lose Control”,以及音準確實也有些“Lose Control”。
除此之外,歌曲創作能力,豆包也有了。比如和豆包說“給我唱一首歌,歌詞裡面要有‘年終獎多多’”,它立刻表演了一首。雖然歌詞比較口水,但響應速度很是優秀。
從角色演繹和唱歌的能力就能感受到,豆包的擬人能力、互動自然程度以及情緒表達水平,已經是next level。
比如讓豆包講個鬼故事,它能根據情節切換語氣,非常有氛圍感。
這次豆包又上線了兩種人格模式:“受氣小包”“誇誇大師”
所謂的“受氣小包”,官方說法是可以讓豆包呈現委屈巴巴的狀態。但我們聊下來的感受是,“受氣小包”更準確的說法應該是“綠茶小包”。
不過難得的是,不管接受任何指令,“受氣小包”都能維持“委屈”的人設。比如讓“受氣小包”陰陽怪氣一些,最陰陽的版本,還是散發著茶香:
“喲,我可不敢吶,你可是主子,我不過是個任您使喚的小可憐,哪敢有什麼別的想法呀!”
相比於8月釋出的出版語音通話功能,能明顯感受到,豆包的情緒感知能力也更強了。透過一個“啊哈”,它就能感知到使用者歡快的情緒。
當然,豆包的情緒表達上,也變得更像人。用“猜性別”來逗豆包,有一種和真實網友開玩笑的感覺。

   搞定語音互動,

擬人賽道的入場券

2024年5月,自OpenAI旗下GPT-4o釋出以來的很長一段時間裡,市面上大多AI語音通話功能,採用的都是ASR(自動語音識別)+LLM(大語言模型)+TTS(文生音訊)的級聯方案。
比如初代豆包的語音通話功能,就集成了語音識別模型Seed-ASR、語音合成模型Seed-TTS,以及整合了RTC(即時音影片)技術,來實現對話情境下AI的即時互動。
但整合多個模型的級聯方案,劣勢在於AI的互動,很大程度上還不夠像人一樣自然。在“語音轉文字再轉語音” 的過程中,難免出現資訊的損耗。
這也導致,傳統的語音互動模式在落地場景上有一定的侷限性。行業對於AI語音互動的落地,侷限在教育、客服等高專業度、低擬人度的場景中。
不過,端到端方案正在逐漸成為主流。比如智譜在2024年10月釋出的GLM-4-Voice,以及面壁智慧在2025年1月15日釋出的“端側GPT-4o”MiniCPM-o 2.6,就採用了端到端的模型方案,在一個模型裡同時完成視覺的理解,以及語音的理解和生成。
據“智慧湧現”瞭解,這次豆包語音通話功能的更新,主要是由於底層模型技術,從原有多個多模態模型合作的級聯方案,改成了直接從“理解語音到生成語音”的端到端方案,因此在降低延時、自然度、情感表達等方面,都有了明顯的提升,並且還能輸出歌曲。
而語音能力的提升,也會將AI落地的空間,從教培、客服等專業領域,擴充套件到情感陪伴、心理諮詢、配音等更廣闊的場景中。
尤其是AI情感陪伴、角色扮演領域,在當下已經展現出強大的吸金能力。
比如,最近一款主打AI偶像扮演的App“Lovey Dovey”,迅速衝上韓區iOS評分第一,深受追星族的追捧。“六小虎”MiniMax旗下的角色扮演應用Talkie,根據點點資料,擁有576萬月活使用者。
在語音層面對角色扮演、情緒感知和表達能力的提升,則是豐富AI與人互動形式、提升沉浸感的關鍵一環。情感互動能開拓的市場空間,也逼迫著技術朝著“擬人”的方向更近一步。

相關文章