Google爆款AI產品終於支援中文!兒化音賊溜,AI這口地道京腔要怎麼練成?

從來沒想過,AI 跑出來的語音,竟然可以擺脫「外國人說中文」,對味兒!
Google 系的第一大爆款 NotebookLM 釋出更新,現在(終於)支援多達五十種語言來生成播客——包括中文。
速速測試了一下,神奇,聽起來竟然還有股「京片子」的感覺,那叫一個地地道道!
昨天更新的 DeepSeek-Prover-V2,涉及到遞迴、強化學習以及數學推理這些硬核知識,NotebookLM 也可以馬上轉換成易懂的中文播客。
如果你還不知道 NotebookLM,那麼快速回顧一下:這是 Google 旗下的產品,上傳任意文字材料,就可以轉換為輕鬆易懂的播客對談——聊著聊著就能把晦澀的知識點聽進去,且幾乎沒有傳統文字轉聲音的「AI 味」。

據日本網友的測評,日語也說得非常好,是不是真好咱也不知道,且當做是吧。

我們也期待 NotebookLM 中文版能儘快更新和主持人對話的功能(英文版已經支援),APPSO 也曾做過詳細的體驗👉🏻年度最火 AI 工具更新了,知識以一種神奇的方式進入大腦
去年它一發布就風靡全球,NotebookLM 背後的主創團隊也因此名聲大噪。其中,Raiza Martin 是 Google AI 實驗室級產品經理,她領導 NotebookLM 背後的整個團隊。Steven Johnson 是 NotebookLM 編輯總監,同時也是暢銷書作家,著作曾登上《紐約時報》暢銷書榜單。
獲得成功後,Raiza Martin 選擇從 Google 離職,開始自己的創業之旅。在此之前,她和 Steven Johnson 一起作客 DeepMind 播客,那是她作為 Google 成員的最後一次亮相。
在這期節目上,兩位主創分享了這個年度爆款背後的製作故事,還為播客主持人 Hannah Fry 送上了一份特殊的禮物。
以下為對談節選,經整理及編輯,內容有所刪減。
Hannah Fry:你們把我的博士論文第一頁做成了播客!太神奇了,它聽上去比實際上有趣得多!
Steven Johnson:這就是重點(笑)。
Hannah Fry:兩個聲音在完成彼此的句子,在雙關語上感覺非常流暢,非常自然。NotebookLM 得到了非常多的反響,你對這些反響感到驚訝嗎,Raiza?
Raiza Martin:是的,對我來說最令人驚訝且同樣令人開心的是人們如何使用它。我曾經想象過他們可能會怎麼用,但是釋出一個如此令人興奮的東西的美妙之處在於,你會看到一個全新的世界。我可能每天花很大一部分時間,大約三分之一的時間,就是在聽這些內容。
Steven Johnson:我們真正感到驚訝的是人們會把他們的簡歷放在那裡。這幾乎就像一個小型誇誇機器,就像當你對自己感到沮喪的時候,聽一段 10 分鐘的音訊對話,兩個非常熱情的主持人在說:「哇,斯蒂芬在他的職業生涯中確實做了很多事情。」實際上簡歷是一個更嚴肅的東西。
但這是很有趣和輕鬆的使用方式。比如你可以對你正在進行的專案進行改進,你可以上傳你正在寫的一個短篇小說,然後說,嘿,給我一些建設性的批評意見。然後你會聽到「人們」談論你的作品,他們非常擅長挖掘有趣的轉折點,或者關注那些特別引人注目的角色。所以這是一種針對你正在進行的專案,獲得討論小組反饋的方式,這真的很神奇

NotebookLM 案例示範,影片來自網路

Hannah Fry:聽到別人討論的時候,好像是增加了一種客觀性?
Raiza Martin:很多內容或內容生成,如果只是以文字形式呈現,其實並不新鮮,對吧?上傳我的簡歷,然後讓一個大語言模型吐出一些內容,比如「這是 Raiza 的職業生涯」,寫一個類似的總結。也許它會在這裡和那裡抽取出一些有趣的細節,這在兩年前可能還算新穎,當時每個人都對此感到興奮。但我認為,新增那個新的層次或新的模態,就是那種非常像人類的聲音,以一種非常不同的方式與人們建立了聯絡。
我個人認為,這種技術是「人性化」的,就是當你意識到它與你非常相似,以一種不同的方式引起共鳴。我記得第一次聽我的簡歷時——我知道會是什麼樣子——但當我聽到它時,我仍然感受到內心有一種激動,那種「哇」的感覺。我認為這就是新模態的魔力。
Steven Johnson:眾所周知,人類已經透過對話交流和學習數十萬年了。我們透過閱讀書頁上的結構化文字已經學習了 500 年,透過螢幕上的結構化文字學習了 30 年。所以當你啟用那種真正類似人類對話的感覺時,這觸及了我們作為人類最深層、最古老、最根本的部分。這就是為什麼當人們第一次聽到這種對話時會如此激動的原因之一。
Hannah Fry:你們決定有兩個人對談,而不是隻有一個聲音對著空氣說話,也是很有趣的選擇。
Steven Johnson:是的,這確實是一個非常不同的格式。如果只有一個人,聽起來就像是文字轉語音,對吧?我們都聽過文字轉語音。就像是電腦把它剛剛寫的文字,轉換成可以聽的東西,這很棒。我們也很感興趣地想找出在其他形式。
但要做明白對話,我們必須更詳細更深入,比如有很多細微的東西,你必須讓它們運轉起來。沒有人想聽兩個機器人互相對話,那肯定會失敗,根本聽不到 30 秒。你必須掌握人們在對話中做的所有微妙而奇怪的事情,這樣才行。
Hannah Fry:那我們還是回到這個專案的起源吧,它是怎麼來的?
Raiza Martin:我想很多人認為 Notebook LLM 是因為音訊概覽功能而新出現的。我們確實有大量的人湧入,人們都說「哇,這是谷歌的什麼新東西?」但實際上,我們已經研發 NotebookLM 一年多了。
去年在 Google IO 大會上,我們首次以「Project Tailwind」的名稱宣佈了它,在那之前,我們實際上已經在谷歌實驗室孵化了這個專案。這也是Steven 和我相識的方式。Steven 是被引進來的。Steven,你最開始的職位是什麼?
Steven Johnson:我是訪問學者,是的,然後我成為了編輯總監。
Raiza Martin:他當時已經升職了,當時 Josh Woodward——現在是谷歌實驗室的負責人,他是副總裁——告訴我說「我希望你能建立一個新的人工智慧業務。」我當時在想,要真正做到這一點究竟需要什麼。但我要說的是,我早期的靈感之一就是簡單地觀察 Steven Johnson 的工作,說實話,就是理解他如何做他所做的事情,我當時想:「天哪,這真是一種超能力。」
Steven Johnson:我之前有長期寫書的經歷,Josh 讀過我的一些書,也讀過我寫的關於思考工具的東西,基本上就是如何使用軟體幫助人們思考和發展想法和研究,那是在 2022 年中期。

Steven Johnson

那時語言模型是重中之重,所以他聯絡了我說「嘿,你有沒有興趣來谷歌,幫助構建你一直想要幫助人們學習和組織想法的工具,建立在語言模型之上的。」我記得我在谷歌第二天就遇到了 Raiza,我和她從一開始就很清楚,當時就說,讓我們來創造一些新東西。
Hannah Fry:你們怎麼定奪它的特殊之處,相比於把文件上傳給 Gemini 讓它總結?
Steven Johnson:我們稱之為 source grounding,這是我們的說法。在 2022 年中期,還沒有人談論,所以這是我們構建的第一件事。我們上傳了我的一本書的部分內容,然後我可以與模型進行一種非常粗糙的對話,完全不像你現在看到的文字或音訊。但你可以看到,如果(模型)擁有你所有的想法,而不僅僅是與一個普通的開源模型交談的內容,會是什麼樣子
這會很棒,它還能減少幻覺,你可以用來做事實核查,可以回溯檢視原始源材料,這是整個 NotebookLM 的重要組成部分。NotebookLM 是一切的開始,我們所做的一切都建立在那個平臺上。
Hannah Fry:這裡真正的關鍵區別在於它非常聚焦於你提供的源材料及其相關的一切,而不僅僅是你所說的那種通用的
Raiza Martin:是的,我想說的是,我們觀察到這種正規化一開始會有點難以上手,因為它太新了,對吧?首先,你是在與 AI 對話,而且還必須帶上自己的資料。我每天的工作,Steven 每天的工作,以及全世界每天在電腦上工作的許多人,我們都在處理非常具體的資訊,以及與他人共享的特定背景,對吧?比如我們做研究,收集資料,希望從中提取自己的見解。我認為這就是讓 NotebookLM 變得特別的地方,從一開始就很特別。
Hannah Fry:所以它確實也包括了這些文字元素,因為正如你所說,播客部分是最為人所知的部分。
Raiza Martin:沒錯,播客功能是 NotebookLM 中最近的發展,但實際上我們是一年前推出的,當時它主要是一個聊天功能,你透過系統與它對話,使用你的資料,而且它始終會回溯並精確指出它使用了你內容中的哪些部分。
Hannah Fry:那給我一些更普通的例子,說明人們是如何在日常生活中使用這個的,而不是像 Steven 那樣的高階用法。
Steven Johnson:實際上我們看到很多人主要使用它的文字功能。突然間,你擁有了一個可以回答關於所有幾百頁文件的任何問題的強大資源。在文字版本中,你會得到引用和所有相關資訊。
其實這是非常學術化的。你得到的每一個答案,模型提供的每一個事實都會附帶一個內嵌的腳註,你可以點選那個腳註,檢視原文段落。作家和記者顯然是在使用這個功能。
這有點來自於我參與這個專案的經歷。我有一個筆記本,裡面儲存了我多年來閱讀過的書籍中的成千上萬的引用,還有我自己寫的書的很多內容。這個筆記本基本上就像是我的大腦被 AI 捕捉了一樣。所以每當我在做一些新的創意工作時,我就會去翻這個筆記本,問它:「嘿,你覺得這個點子怎麼樣?」然後 AI 會說:「嘿,Steven,你大約七年前讀過與此相關的東西,看看這個段落怎麼樣?」所以它真的成了我記憶的延伸,就像這種東西。
Hannah Fry:不是僅僅回憶,而是它真的可以有洞察嗎?
Raiza Martin:我會說有,因為我確實用過這個功能。其中一個我喜歡問它的事情是,每當我上傳這些每週的日誌時,我會問:「我隨著時間的推移變化了多少?」這真的很了不起,它能夠為我提取出一些非常有趣的細節,是我自己沒有意識到的。它能告訴我,比如說:「嘿,你經常把很多負面情緒與這個特定話題關聯起來,而你又把很多積極情緒與那個話題關聯。」
這非常有趣,回到你之前問的關於日常和普通用例的問題,我們其實看到很多這樣的情況——就是人們試圖理解他們每天做的工作。例如,銷售團隊就常常使用這個功能來互相分享知識,這樣的應用確實很有意義。處理大量技術複雜且不斷變化的文件時,有一個 AI 夥伴真的很棒。
我覺得這和今天許多 AI 系統的工作方式非常不同。比如說,我使用了市面上所有的工具,而我寫的提示非常龐大——我通常會先寫:「你是一個……,這是我們正在做的事,這些是相關的文件。」而對於 NotebookLM,它其實直接簡化了這個過程,它就像一個專案空間,知道你在說什麼,你可以一直進行對話,它最多能處理 2500 萬字的內容,簡直是從上下文角度來看非常龐大。
Steven Johnson:我覺得其中一個有趣且可能有些獨特的方面是,關於這個產品是否有效的問題,很多時候並不是技術性問題,而是編輯風格上的問題。例如,當你得到一個音訊概覽時,什麼樣的答案才是合適的?風格是什麼?它們應該針對哪個層次的聽眾?
這些都不是技術問題,而是語言問題。這個正是語言模型時代的瘋狂現實——那些曾經主要是「讓程式設計做對」的問題,現在更多變成了關於修辭和表達的問題。
Hannah Fry:嗯,實際上我也很想更深入地探討一下風格方面的問題。你們為什麼決定採用音訊概覽的形式呢?是什麼激發了這個靈感?畢竟現在已經有很多播客了,是吧?
Steven Johnson:音訊概覽的出現其實是實驗室結構運作良好的一個例子,我覺得這也是它的一大亮點,因為這是實驗室內的另一個小團隊專注於音訊版本的工作。它的部分理念並不是為了與播客競爭,而是認識到有一類內容,如果要製作成播客,是無法實現其經濟效益
但如果能自動生成音訊概覽,就有可能吸引五個人、一個人,或者二十個人去聽,而不是二十萬人。比如說,我們想基於上週的團隊會議製作一個播客,方便大家回顧,這顯然不可能成為一個商業化的業務,沒人會要求你去主持這樣的節目。
Hannah Fryh:但實際上對那個團隊來說,這個功能就很有用了。
OpenAI 聯創 Andrej Karpathy 高度評價 NotebookLM 的創新
Steven Johnson:對。他們開始開發這個功能時,我聽說過,那應該是在今年三月或四月吧。當時,我和其他聽過音訊概覽的人一樣,都會覺得:「哇,我剛聽到的是什麼?太棒了!」但我們很早就意識到,NotebookLM 的使命之一就是打造一個幫助人們理解事物的工具。
突然間我們發現,人們在以「兩位聰明人之間的對話」的形式聽到資訊時,更能理解、記住並集中注意力。我們在夏天向 Google 內部員工釋出了這個功能,那個時候我想我們開始覺得,這個肯定會火,因為你能明顯看到人們對它的喜愛。雖然我們也很驚訝它能引起如此大的反響,但我們知道我們已經觸及到了一些有趣的東西。
Raiza Martin:(最初)NotebookLM 的底層模型是 Gemini 1.5 Pro,這個模型能夠生成非常令人印象深刻的內容和語音模型。我們使用的音訊模型本身就是一個突破,我想這正是你所提到的——那種人類語音的真實感,對吧?
我們聽到的那些類似人類的聲音。然後再加上我們採用的方法,結合了內容的編輯化處理,思考如何為使用者創造既有用又有趣、並且吸引人的東西。Steven 也能更詳細地講解這一點。
Steven Johnson:是的,這正好引出了一個我經常提到的主題,就是關於「有趣性」的問題。Simon 是音訊團隊的負責人之一,他有時會為音訊概覽提出一個口號:「讓任何事情都變得有趣。」比如,不管是什麼內容,把你的論文變得有趣——當然,我相信你的論文字來就已經很有趣了(笑)。
這真是一個很好的例子,展示了幾種技術或突破的匯聚,創造出了某種魔法般的效果。Gemini 本身也可以在文字上做到這一點,它非常擅長從你提供的材料中提取出有趣的事實、觀點或故事
我自己經常做這個,比如上傳一些新的內容,然後問它:「告訴我從中最有趣的東西」,僅僅是文字形式。以前的計算機是做不到這一點的。你不可能透過 Command+F 來搜尋有趣的內容,這根本不是一個能搜尋的查詢
Hannah Fry:但你如何定義它,我的意思是,「有趣」意味著什麼?
Steven Johnson:我相信這來源於語言模型的基本理念,即它們是預測性的。它們的工作原理是:給定一串文字,我預期接下來會發生什麼。所以,「有趣性」就是一種「受控的驚訝」。我原本以為會是這樣,但實際上這裡有些我沒預料到的新資訊.
語言模型擅長這個不足為奇了,因為它們的基本機制就是預測。它們在瀏覽所有資訊時,會根據訓練資料判斷哪些資訊是新穎的,或者哪些資訊超出了它們的預期。所以,如果你很擅長這方面,那就是 Gemini 模型的一個基礎能力,對吧?
第二個非常酷的地方在於,指令會將生成的指令碼新增一些噪音。這些噪音被稱為「語言不流暢性」,就是人類在說話時常出現的口吃、停頓和插入語。事實證明,這些噪音是必要的,因為如果沒有這些,語音聽起來就會顯得過於機械化。
最後,還有音訊的語音本身,它們會做出一些微妙的調整,比如在英語中,如果說話者不確定自己在說什麼,或者是為了強調某些內容,他們的語調會稍微提高,或者會放慢語速。
這些都是我們在說話時自然而然地做的事情,我們甚至不需要去想,但直到現在,計算機才開始能夠做到這些,而這正是其中的一部分,這背後的語言和語音模型,過去一年內才實現的技術突破。
Hannah Fry:正如你所說,Steven,我注意到,你讓聲音在某些地方會上揚,在其他地方會下降,音調的範圍和語速完全發生變化。你們把這些所有的元素都融入到了其中。那麼,究竟是如何做到的呢?
Steven Johnson:我們應該澄清一下,我們並沒有自己開發語音模型,我你們也不知道它的內部如何運轉。Google 的天才們開發了這項技術,我們只是繼承了它,並展示了它如何被應用。但我們並沒有親自構建它。
現在有一個問題是,雖然目前只支援英語,很多人都非常期待它能支援其他語言。我們也非常希望能實現這一點,因為我們有非常棒的國際使用者群體。但這並不是一件容易的事,因為每種語言的語調和對話中的細節都有所不同。所以你不能只是把文字翻譯成西班牙語,然後按播放鍵就行了。
Hannah Fry:完全同意你說的,確實非常值得注意的一點是,技術在處理不同型別的資料時,需要有多樣性和適應性。如何避免讓它每次聽起來像一堆陳詞濫調,這真的是一個很好的問題。你在描述時提到你在編碼所有的「語言不流暢性」,那麼如何確保它不會聽起來像是重複的、千篇一律的內容呢?
Raiza Martin:確實很難每次都避免讓內容聽起來像陳詞濫調,尤其是當試圖透過標準化「有趣」來處理內容時。聽得多了,這種「有趣」確實會顯得重複。所以我們引入了第一個改進,就是允許使用者向主持人傳遞一些指示,像是「少用陳詞濫調,深入探討這個話題」,這樣就能改變他們講述內容的方式,確實能增加內容的多樣性和深度。
Hannah Fry:我可以想象成這就像是不同型別的旋鈕,比如可能你開啟的是「風趣」的旋鈕,或者你開啟的是「歷史事實」旋鈕,或者之類的?
Steven Johnson:這個比喻非常有意思。其實你還可以設想成給每個主持人設定不同的專業領域。他們基本上是可以互換的,並不是從不同的世界觀中找出各自的視角,他們只是輪流主導對話,隨機地交換位置。
Hannah Fry:將來我真的能夠與這些主持人互動嗎?比如打斷他們,並加入他們的對話嗎?
Steven Johnson:我們在 Google 開發者大會上演示過,在演示中採用了類似音訊播客的格式,然後實驗室負責人 Josh Woodward 打斷了演示,說:「嘿,你們在講物理學,能不能用籃球比喻來解釋一下?因為我的兒子正在聽。」他們回應道:「哦,沒問題。」 就這樣,就像是有人打電話到電臺節目中來,要求用籃球比喻來講解。這個互動展示了我們想要實現的目標的一部分。你可以想象,我們非常渴望將這項功能帶給更多使用者。
(編者注:現版本已經支援加入對談,僅限英語)

Google 2023 IO 開發者大會

Hannah Fry:你提到了一點,我其實想進一步探討。有些人對這項技術提出了批評,認為它對播客行業構成威脅,認為你們可能會用大量的、低質量的 AI 生成播客內容淹沒播客市場。對此你有什麼回應嗎?
Raiza Martin:一個有趣且微妙之處在於,我們發現人們正在創作一些原本可能沒有播客覆蓋的內容。它可能不是我想說的「平凡」,但它確實是那些沒人會專門做成一個完整節目的東西。我認為那很有趣。我覺得工具賦予了人們創作他們想要的內容的力量,而這些內容他們通常無法接觸到。
至於低質量內容這一點,我會說我聽到的大多數內容,尤其是在網際網路上、Discord 上釋出的內容,質量相當高。第三點,所有來自 NotebookLM 的生成內容也都帶有 synth ID 水印。因此,我們採取了非常負責任和謹慎的方式,確保在我們創造機器、推出能夠生成非常類似人類音訊輸出的技術時,確保這些內容能夠被水印標識。
注:除標註外,配圖均由 AI 生成
我們正在招募夥伴
📮 簡歷投遞郵箱[email protected]
✉️ 郵件標題「姓名+崗位名稱」(請隨簡歷附上專案/作品或相關連結)

相關文章