兩本科生自學3個月復刻谷歌爆款產品,開源AI語音新標杆一天攬獲5000星標

文章轉載於量子位(QbitAI)
作者:夢晨
谷歌現象級產品NotebookLM,兩個本科生自學3個月就復刻了?
Nari Labs剛剛開源的Dia-1.6B,能夠生成關於任何主題的對話,語音音色自然,還會新增語氣、咳嗽聲、笑聲等。
官方演示提供了與熱門語音模型ElevenLabs和SeaSame的對比,先來感受一下:
Dia-1.6B模型權重與推理程式碼全開源,在GitHub上不到一天就獲得近5000標星。
目前Dia 1.6B在單張英偉達RTX A4000上每秒約可生成40個token,而86個token大約是1秒的音訊內容。
也就是說,在更強的GPU或者多卡配置下可以做到即時生成音訊。
官方表示完整版模型需要10GB視訊記憶體執行,未來會新增量化版本,以及CPU支援。
不過開源社群已經透過最佳化torch編譯進一步提高推理速度和節省視訊記憶體。
如果沒有算力資源,也可以到HuggingFace試玩Demo,不過很可惜,目前版本不支援中文。
1
真實語氣語音生成
使用Dia-1.6B非常簡單,用[s1] [s2]標籤帶標兩個不同的音色,目前模型為針對任何音色微調,每次都會隨機得到不同的音色。
如果想保持特定音色,可以新增音色提示詞(教程稍後釋出)或固定隨機種子。
語氣會自動適應文字內容,如官方演示中一段與著火了有關的對話,AI語氣就明顯緊張起來。
相比之下,Eleven Labs和Seasame模型生成的語氣還是不緊不慢的。
只需使用括號可新增咳嗽、吸鼻子、清嗓子、笑聲等要素,特別是笑聲會與。其他模型暫不支援這個功能。
不過目前版本的線上Demo也有一些問題,由於最大生成時長相對固定,輸入的文字越多語速就會越快。
如果在引數中調整速度因子,會像調整音訊播放速度一樣讓聲音更低沉,沒那麼自然了。
1
兩位本科生自學3個月打造
Nari Lab創始成員Toby Kim與Jaeyong Sung,來自韓國首爾大學和韓國科學技術院(KAIST),其中還有一人在服兵役兼職工作,整個專案0融資啟動,自學3個月完成。
Toby Kim透露專案靈感正是來自谷歌去年爆火的NoteBook LM自動生成播客對話功能,但他們想要對聲音的控制力更強,指令碼的自由度更高。
他們嘗試了當時市面上所有的文字轉語音API後,認為沒有一個聽起來像真實的人類對話。
於是他們靠申請免費的谷歌研究計劃TPU資源訓練模型,並推薦學習入門TPU的團隊去看DeepMind的《How to Scale Your Model》 和HuggingFace的《Ultra-Scale Playbook》

未來,他們計劃把Dia打造成一款完整應用,可以建立有趣的對話、重新組合內容並與好友分享。
線上試玩:https://huggingface.co/spaces/nari-labs/Dia-1.6B
How to Scale Your Modelhttps://jax-ml.github.io/scaling-book/Ultra-Scale Playbookhttps://huggingface.co/spaces/nanotron/ultrascale-playbook
參考連結:[1]https://x.com/_doyeob_/status/1914464979266449863[2]https://techcrunch.com/2025/04/22/two-undergrads-built-an-ai-speech-model-to-rival-notebooklm/

點個愛心,再走


相關文章