

作者 | 程茜
編輯 | 漠影
讓《長安的荔枝》男主角李善德親自推薦自己的電視劇是什麼體驗?
這段讓人難辨真假的音訊並非真正出自李善德之口,其應用的正是科大訊飛近期升級的聲音復刻技術,李善德痛斥右相的段落中,聲調拔高,語速加快,聲音復刻技術呈現的李善德推薦《長安的荔枝》音訊中,不僅將聲線高度契合,而且把語音中包含的情緒也復刻得非常到位。值得注意的是,這段AI“李善德”的學習素材僅需不到10s。
去年,訊飛星火App的小星暢聊裡就上線了一句話聲音復刻功能,如今,訊飛星火新版聲音復刻功能也已更新,人人都可擁有同聲線的數字分身。同時,新一代的聲音復刻能力也已正式上線訊飛開放平臺,開發者可透過API進行接入和呼叫。
在App中建立聲音,使用者只需要選擇性別,朗讀一句話,就可以快速生成自定義聲音,並與之進行對話。

作為AI語音王者,科大訊飛在語音技術領域的深耕,以及在智慧駕駛、教育等人機互動場景的廣泛應用,已經使其成為全球語音領域的頭部企業,其語音相關專案不僅兩次獲得國內智慧財產權領域的最高獎項中國專利金獎,同時還斬獲國家科學技術進步獎一等獎。
在這一背景下,科大訊飛聲音復刻技術的背後到底有哪些黑科技?語音技術將帶給科技行業什麼樣的想象空間?智東西將從訊飛星火App的相關功能體驗出發,找到這些問題的答案。
01.
秒級自定義AI發音人
蠟筆小新、哪吒跨時空交流
如今更貼近人類日常交流的語音互動模式,幾乎已經成為聊天機器人的必備功能。
訊飛星火App的語音通話功能中,不僅支援其內建的14位發音人與使用者流暢對話,還可以透過一句話建立屬於自己的發音人。
可以看到,App中已經預設了14個發音人,包含普通話、英文、方言、日語、俄語等多種語音包。

想要自己建立發音人的過程也極為簡單,使用者只需選擇性別,然後根據提示朗讀螢幕上的一句話,等待幾秒鐘就能建立成功,同時為了讓其更符合使用者的使用習慣,還能新增相應人設。
下面有幾個案例來感受一下一句話聲音復刻技術的驚豔效果,用這項技術對使用者熟知的影視劇角色、動漫人物聲音進行了復刻,透過對比,我們可以更為直觀地感受到其聲音合成的相似度與準確度。
科大訊飛的聲音復刻技術讓兩大經典影視劇中的甄嬛和佟掌櫃來了一場世紀交流,當 AI 用《甄嬛傳》中甄嬛的復刻聲線說出《武林外傳》佟掌櫃的經典臺詞時,僅需不到6s的音訊即可瞬間讓《武林外傳》資深觀眾來了一波穿越。
原音訊:
聲音復刻效果:
其合成音訊中,不僅復刻了甄嬛的聲線,語氣也十分平緩,訴說過程銜接自然流暢。
第三是動漫形象,基於科大訊飛的聲音復刻技術,哪吒和蠟筆小新實現了跨時空交流。
透過不到7s的音訊素材進行學習,就可以復刻蠟筆小新的聲音,並讓其準確說出哪吒的經典打油詩。
原音訊:
聲音復刻效果:
同時,哪吒也可以開口說蠟筆小新的經典臺詞,與其寵物小白隔空交流,復刻的音訊中,既保留了哪吒的獨特聲線,還有其特殊的尾音上揚特徵。
原音訊:
聲音復刻效果:
這些音訊的實現效果,有的僅需要原角色不到5s的音訊就能實現,且可以看出上面幾段音訊都沒有出現明顯的卡頓,還復刻了聲調上揚、語速、說話節奏等細微的特徵。
02.
從音色到停頓、發音流暢自然
打造三階段層次化語音建模框架
對於這些深入人心的影視角色,使用者在一些更為細節的發音特徵上或許感知並不是很強烈,但在訊飛星火App自定義建立聲音的場景中,使用者對發音人復刻效果的要求更高,這對聲音復刻功能提出了更大挑戰。
因此想要實現“一句話聲音復刻”的背後,需要面臨三大關鍵難題:如何從一句話中精準提煉使用者發音的多種特性、如何保證聲音相似、如何準確還原使用者的停頓、發聲、重音習慣以及口癖等。
在此基礎上,科大訊飛為個性化的語音合成打造了“三階段層次化語音建模框架”,試圖將使用者輸入一句話音訊的各種聲音資訊都捕捉到位。
具體來看,該框架具體分為三個階段,透過星火底座大模型精確捕捉髮音規律和韻律特徵、在音色恢復階段解耦並重構聲學特徵、透過聲碼器恢復高保真波形。
傳統聲音復刻技術往往需要數小時甚至數十小時語音樣本進行訓練,而基於星火語音大模型底座能力,其可以快速從短時間音訊中提取語音中的基礎元素。
其第二個階段的本質正是透過將語音的音色屬性從複雜的混合訊號中剝離出來,並按照目標需求重新組合關鍵特徵,以提高音色還原的準確性。
第三個階段中的高保真波形恢復,能夠儘可能還原原始音訊的時域細節、頻譜特徵和動態範圍。
據瞭解,這套語音建模框架突破語義表徵,採用mel VQ-AE模型(Mel頻譜向量量化自編碼器)結合語音自監督預訓練編碼器,並引入音色最小互資訊約束,能解耦出音色無關的離散語義token,實現了發音內容與音色特徵的可控分離,並可以提升語義大模型的建模穩定性。
同時,讓合成聲音更為自然還有一大關鍵是,發音需流暢且音色一致,因此在音色解耦表徵的基礎上,科大訊飛進一步透過音色增強以及強化學習,來實現聲音復刻的人機難辨。
其中,音色增強是指在聲學模型中,研究人員融合全域性聲紋嵌入與區域性幀級音色編碼,提取細粒度音色特徵,並構建聲紋空間語義一致性損失函式,提升音色恢復的相似度;透過語音魯棒性評價模型和人工標註構建偏好資料集,採用基於DPO的強化學習策略提升合成語音的穩定性和自然流暢度。
在這些綜合作用下,科大訊飛的語音合成技術已經可以做到,只需一句話錄音就能完整捕捉使用者喉腔共鳴、口音特點、氣息流轉等發音特徵,並精準還原使用者的停頓習慣、情感起伏和呼吸節奏。
基於此才能達到真人難以區分的復刻效果,為車載語音互動系統、個性化智慧客服、智慧體互動的應用場景開啟更大想象空間。
03.
多次拿下業界國家級大獎
橫縱佈局加速語音技術落地
一直以來,語音都是人類最自然的交流方式,因此業界一直圍繞著模擬人類對話過程、使機器能夠理解並回應人類語音指令進行探索。
作為國內AI領域國家隊,科大訊飛早在2011年就肩負起語音及語言處理國家工程實驗室(後升級為工程研究中心)的重任,併成為全球語音技術領域的頭部玩家。
時至今日,科大訊飛在語音領域已經碩果累累,最直觀的資料就是,本月,科大訊飛憑藉“基於時延估計的回聲消除方法及裝置”專利入選第二十五屆中國專利金獎專案名單,這也是其第二次獲得這一國內智慧財產權領域的最高獎項,同時也是安徽省唯一一家兩次獲得中國專利金獎的單位。
此外,去年其“多語種智慧語音關鍵技術及產業化”專案還斬獲國家科學技術進步獎一等獎。

在技術深耕之下,科大訊飛不僅實現了在語音識別、語音合成領域的準確度、識別語種、相似度等各項效能的縱向提升,還橫向拓寬了語音技術的應用場景,從識別、翻譯到合成,以及智慧駕駛、智慧客服、教育等諸多場景。
去年9月,科大訊飛在語音識別領域的賽事CHiME-8奪冠,並實現五連冠。語音識別首次實現全國地級市方言全覆蓋,包括288個地市202種方言。
此前科大訊飛正式釋出的星火語音大模型,實現74個語種、方言免切換對話;且根據真實業務構建的語音輸入場景測試集,星火語音大模型37個語種語音識別效果領先OpenAI釋出的開源語音識別模型Whisper-V3.5。
同時其能在強幹擾場景下實現精準語音識別,在兩人疊混場景、三人疊混場景中和-5dB高噪音場景中的語音轉寫效果遠超Whisper和Gemini等。
在此基礎上,星火語音大模型已經深度運用在各種人機互動場景中,如智慧座艙、教育等諸多領域。
可見語音技術的攻關非一日之功,在技術深耕與場景應用上的雙重發力,使得科大訊飛的語音技術正在全球扮演著愈發重要的角色。
04.
結語:更自然流暢的語音互動
正擴寬AI應用場景
語音互動使人們可以透過說話來操作裝置和獲取資訊,無需手動輸入或操作複雜的介面。如今隨著技術的發展,語音識別和合成技術為聊天機器人等AI工具賦予了自然互動能力,使其與使用者的交流更加流暢。
與此同時,企業也在不斷探索新的演算法和模型,在突破語音識別、合成準確率的同時,拓寬其應用場景,使得語音與自然語言處理、計算機視覺等技術相互融合,以推動AI的發展,而科大訊飛在技術融合與場景落地方面的積累,已展現出顯著的競爭力。

(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)
