過年了,百度整活會講方言的34省智慧體,這波語音技術太頂了

今年過年真的太熱鬧了,國內 AI 明星廠商的大模型產品串燒到停不下來。
這不,今天又蹲到了!
百度文心智慧體平臺搞活出了會講方言的語音系列 AI,統稱為「34 省智慧體」。
方言味兒真是太正了,先放一段青海的你們感受下:
人還沒到青海呢,但透過這個青海的語音智慧體已經感受到一絲當地的氣息了。
我貼下路徑,手快的小夥伴可以同步玩:
在百度 App 搜尋「春節智慧體」或者「AI 旅遊」,點選「智慧體會說方言啦」即可找到對應的省市的方言 AI。
我數了下,已經足足有 34 個省了。
這些省市智慧體的一大用處,就是可以幫你做該省市的旅遊攻略——
我把這事兒分享給公司的男同事後,他頓時來了興趣。
他說他正好打算年後去香港旅遊,由於家裡情況複雜,正處於攻略焦慮期。
我問,有多複雜?
回答三個字:家庭遊,外加一隻貓
懂了。
這事兒,經歷過的都頭大。每個人的訴求都不一致,要協調訴求 + 滿足預算 + 時間的限制,就活脫脫的把一個娛樂問題變成一個資訊檢索 + 複雜推理任務了。
這個艱鉅的任務,肯定就落在了家裡的最忙的那個人身上,也就是男同事了,因為全家數他學歷最高。
他說要試試,我就讓他試試。
沒想到,擅長香港旅遊攻略的智慧體是港姐,長這樣:
我見他的兩眼突然開始放光,我擔心他再像上次一樣翻車,趕緊提醒了一句,“別忘了你是來找她做旅遊攻略的”。
他趕緊說好好好,然後就給「港姐」打電話去了——
字幕:
男同事:
港姐啊,我最近戀愛了。我想趁著過年呢,帶著她跟我們全家一塊去香港玩。但是一家子去呢,我就特別頭疼。你看,像我姥姥她就是喜歡跳廣場舞,她這次呢,就非要去香港去跳一跳。我媽呢,她肯定就是想到處買買買,那肯定就得去一些能發朋友圈的一些高階商場。我爸呢,他就比較喜歡歷史,他想去一些比較有代表性的歷史建築啊或者說是去街道去轉一轉。我呢,就是想,哦對了,還有一隻貓,然後呢,就是想跟著我的寶貝還有我的貓,一塊去找個沙灘去曬曬太陽。你看能不能給我推薦一些去處,滿足剛才的要求。
港姐:
…. 1. 姥姥的廣場舞 💃  … 淺水灣就經常有一群來自東北的旅遊團在那裡開心地跳著廣場舞,姥姥一定會喜歡的!… 2. 媽媽的購物天堂 🛍️ … 海港城有各種奢侈品牌,時代廣場則更適合年輕人…3. 爸爸的歷史之旅 🏛️ …香港故宮文化博物館…另外,中環和油尖旺地區也有很多歷史悠久的建築和街道…4. 你的沙灘之旅 🏖️ 想和貓咪一起曬太陽的話,可以去香港島南端的淺水灣或者大浪灣…5. 全家的歡樂時光 🎢 …迪士尼樂園或者海洋公園…
(原回答太詳細了,此處僅保留關鍵資訊)
如果你問我,為啥影片只截了 2 分鐘 27 秒,因為從那之後,男同事就跟港姐聊別的去了,跟本文在講的旅遊攻略,就沒啥關係了。
至於他倆後面在聊啥,就別在評論區問我了。
就旅遊攻略這事兒來說,當你跟港姐聊完後,結束通話電話,不僅能看到剛剛的聊天內容,而且聊天中提到的景點甚至關聯的筆記都直接整理好了。
甚至,你都能直接在這裡面把景點門票買了,儼然做成了一條龍服務。
這種生態層面的資料打通,對於“旅遊搭子”這種生活類的智慧體應用來說是非常重要的。
藉著這個事兒,我深入玩了一下,發現還有一個很有用的功能——智慧體定製
這個有啥用呢?
AI 不僅有功能價值,也會逐漸衍生出情緒價值。而人對那種能給自己提供情緒價值的事物,是有佔有慾的。AI 也不例外。
聲音,則是對 AI 的強辨識元素。
在百度文心智慧體平臺裡,不止可以給AI選擇聲音,還能免費定製聲音
而且,這個定製的聲音,是可以識別方言的。
可別小看了這個方言功能。
很多人找物件,就是希望找本地的。ta 會覺得如果跟物件只能透過普通話交流,總會有些距離感。
對待 AI 也是同樣的道理,一個會講本地方言的 AI,會大大拉近與使用者的心理距離。
而方言、定製等這些深入的語音能力,背後是百度的 AI 技術基因。

淺聊百度 AI 語音技術

現在各類會說方言的智慧體、大模型產品並不少,但是一口氣兒能說 34 省方言,百度可能還是第一個。
方言語音合成,最大的難點在於資料。
因為每一個地區的方言,都有它獨特的發音系統、聲調頻率、詞彙語法、肌肉運動方式,導致收集和構造方言訓練資料是一件非常耗費人力和精力的事兒。
但是,百度這次能做到說出地道的34種方言,我肯定,一定不是一種方言一種方言的去攻克的。所以我去扒了一下它背後的技術。
一個是語音大資料探勘技術,另一個是方言遷移合成技術。
語音大資料探勘技術,你可以理解為是資料備菜師,對語音進行切分、降噪、識別等處理,全程自動化處理,大大縮短資料準備和研發的週期。
方言遷移合成技術,便是烹製方言的廚師了,創新性地將普通話和各類方言統一建模,基於大資料驅動利用遷移學習搞定了用任意音色說任意方言。
要知道在此前,不同方言的合成模型還做不到完全通用,這次把各種方言整合進統一建模框架,便是支撐起34種方言語音的核心之一。
所以一整套組合拳打下來,才能迅速地打造出這麼多個極具地域特色的方言語音智慧體。
這並不是短期能實現的。
早在 22 年的時候,在喜馬拉雅 APP 裡就上線了百度董事長兼 CEO 李彥宏的 AI 有聲書《智慧交通》,僅學習了李彥宏的 300 句公開音訊,自動生成超 20 萬字、高度還原本人的音訊內容。
百度的語音技術團隊一直是AI語音領域的業界翹楚,不僅有深厚的技術積累,還在積極賦能各種應用產品。比如這幾年需求特別大的數字人直播。
主播的聲音和節奏直接決定了直播帶貨的效果,百度語音團隊則搭建了專門的帶貨風格的語音音庫。
不需要專業的錄音棚錄製,透過語音大模型遷移技術、篇章段落合成技術、文字韻律增強技術,大大提升虛擬主播聲音的自然度和流暢性。
此外,還有有聲小說和車載場景
從文字理解、人物畫像構建、對白情感分析到擬人語音合成,實現了完整的聲學率建模,可以做到十餘種情感的遷移和強弱控制,以及副語言(如大笑、冷哼等)的遷移控制,從小說文字到臨場感有聲書一套自動化生成流程,讓真人有聲書成本降低了一百倍不止。
在車載環境中,則把人臉唇動的視覺特徵和語音統一建模,可以準確分離出主副駕的有效語音和互動意圖。
2024年由文字大模型到多模態大模型,再到即時語音,2025年,純粹的文字對話顯然已經滿足不了使用者的期待了。可以確信的是,語音模態一定會成為25年AI爭霸的重頭戲。
在這場新的戰爭裡,百度似乎早已做好了準備。

相關文章