NotebookLM是Google的ChatGPT時刻嗎?

並不擅長 to C 產品的 Google 推出的 NotebookLM 在近期刷了屏,Andrej Karpathy 稱 NotebookLM 讓他想起了 “ChatGPT 時刻”,Sam Altman 也公開表示,“NotebookLM 很酷”。
NotebookLM 的前身是 Project Tailwind,最初是 Google 推出的一款實驗性的 AI 工具。它允許使用者上傳多種格式的檔案,隨後使用者可以用對話的方式和這些文件進行互動,而近期推出音訊總結更是能將 AI 對文件總結生成播客,讓使用者用“聽內容”的方式獲取資訊,最終引起了產品的病毒式傳播。從一個“20% 專案”快速增長到擁有 6 萬 Discord 社群成員的現象級產品。
本篇內容是紅杉美國的 Pat Grady 和 Sonya Huang對 NotebookLM 的核心開發團隊成員的訪談。其中,Raiza Martin 是 NotebookLM 的產品負責人,而 Jason Spielman 是技術負責人。
團隊成員除了討論 NotebookLM 的誕生背景、關鍵技術原理外,也分享了他們觀察到的 NotebookLM 的 一系列 use case。關於如何打造一款 AI- native 產品,NotebookLM 團隊也有著有趣的理解:
1上下文是 LLM 互動的一個重要特點,只有基於上下文才能創造粘性極高的使用者體驗;
2)今天 AI 應用的開發處於“擬物化”的階段,和 iOS 早期一樣,這是因為還有大量使用者才剛開始接觸到 AI,開發者需要透過使用者熟悉互動或者場景來讓他們習慣和 AI 互動
4)Claude Artifacts 的動態 UI 也許是 AI 互動的未來心態之一。
💡 目錄 💡        
    01 NotebookLM 是 Google 的   
         ChatGPT 時刻嗎
02 NotebookLM 的用例
    03 如何設計出好的 AI-native 產品
    04 NotebookLM 的未來
01.
NotebookLM 是 
Google 的 ChatGPT 時刻嗎?
Sonya Huang:  雖然 NotebookLM 只是一個實驗性的嘗試,但它很快就形成了病毒式傳播。所以大家都把 NotebookLM 看作是 Google 的 ChatGPT 時刻,你們怎麼看這個觀點?
Raiza Martin: 對我來說,把 NotebookLM 比成 ChatGPT 時刻可能太大了,但我也看到很多人透過專案感受到原來 AI 是這樣的、也體會到了 AI 的能力,從這個層面上,NotebookLM 和 ChatGPT 帶來的影響可能是類似的。
Jason Spielman: 我在第一次聽 Audio Overview 的時候,隨著第二個主持人聲音的出現、音訊總結變成了一個播客的時候真的是一種令人震驚的體驗。但我認為,更本質上,Gemini 1.5 Pro 很好地處理這些複雜文字,並以相當簡潔的方式呈現出來,這一點也很重要。所以對我來說,語言模型和聲音的結合確實是一個很重要的時刻。
Sonya Huang:你們自己會怎麼定義 NotebookLM?
Raiza Martin:Notebook 是一個 AI 驅動的研究和寫作工具,今天很多人可能會把它用來將某個內容生成語音總結或者 Podcast。
Sonya Huang: 作為一個 Killer App,Notebook 是怎麼誕生的?是偶然還是刻意設計的結果?
Raiza Martin: 我們一直在研究多模態的生成和輸出,我認為聲音是下一個重要方向,在這個基礎上我們選擇了對話的形式。Notebook 釋出之前我們並不知道它會成為一個所謂的 Killer app,我們只是覺得它的體驗會讓人感到很新奇,但從結果來看人們和這個產品的互動體驗比我們想象中更驚人。
去年我們一直在做 AI Test Kitchen 這個專案,Notebook 最初可能只是一個完成度只有 20% 的專案。當時我們團隊中有一位工程師在開發一個叫做“talk to small corpus”,我一開始並不理解這個專案,但後來我和他交流時,他解釋說,這個專案的核心思想是利用 LLM 和自己的資料對話,從而從中提取有用資訊。當時我就覺得這個想法很有趣。

💡

AI Test Kitchen 是 Google 在 2022 年推出的一個實驗性平臺,最初在 Google 的 I/O 開發者大會上亮相,目的是共同負責任地學習、改進和創新 AI。AI Test Kitchen 提供了多種互動式實驗,讓使用者能夠體驗到最新的 AI 技術,例如使用 LaMDA 對話模型,用 MusicFX 生成音樂,或者透過 ImageFX 將文字轉化為影像等等,平臺也允許使用者提交反饋。
也由此我會繼續想這項技術具體能有哪些應用場景。作為一名成人學習者,我突然意識到,如果我能利用 LLM 與教科書進行對話,那將會是一件很有意義的事情。我能想象到這項技術不僅可能改變我的生活,還可能改變許多人的生活。
從那時起,我們就開始著手考慮如何打造這項技術的第一個版本,並將其介紹給大眾。去年 5 月,我們推出了 Project Tailwind,這個專案就是這個想法的具體實現。使用者可以上傳一個 PDF 檔案作為資訊源,然後與之進行對話交流。
Jason Spielman: 我認為 NotebookLM 最獨特的地方在於它是基於源文件的(source-grounded)。在開始做這個專案時,我都沒意識到我們日常創造的每樣東西,往往都是基於某些已有的資料或文件。所以目前來說,我會把它稱為一個基於源文件的工具。但實際上,它正在發展成為一個用於創作和其他多種用途的源文件工具。
Sonya Huang:  Notebook 的播客和音訊總結的體驗確實很神奇,背後的技術原理是什麼?比如,為什麼它聽起來如此逼真的?生成的對話是怎麼做到能吸引聽眾的?
Raiza Martin: 首先,這絕對是團隊協作的成果。其次,能實現這些體驗的核心還是得益於 Google 強大的模型能力。最關鍵的是 Gemini 1.5 模型,它能夠處理使用者輸入到 NotebookLM 的所有資料,並在此基礎上生成全新的內容。NotebookLM 的音訊功能也是基於 Google 的語音模型實現的。這些不同模型的結合最終造就了 Notebook 的獨特體驗。當然,除了模型本身的能力外,我們團隊在如何有效利用這些模型方面也下了不少功夫。
在 Gemini 1.5 和音訊模型之間還有一個很關鍵的元件是一個叫做 Content Studio 的工具。Content Studio 在使用者提供的內容源到最終生成的播客的過程中扮演了內容編輯的角色。基於 Content Studio ,Notebook 在生成內容的過程中擁有了某種程度上的“創作空間”。
Sonya Huang: 你們是否考慮在未來把 Studio 這個功能開放給使用者?比如讓使用者可以自己調整內容,讓內容更有趣一些,或者更正式一些?
Raiza Martin: 現在使用 Notebook 的使用者很多,對於我們來說下一步就是讓使用者有更多可控性,讓他們可以自己來調整生產的內容。其實一開始我聽到這些需求我會直覺性地反應說:“好,那就把這些調節選項加上吧”。但我現在在嘗試更加謹慎地思考這個問題。大家喜歡上這個功能是因為它讓人感到驚喜。那麼,我們怎樣才能在保持這種驚喜和魔力的同時,還能給使用者一些可控性?
Jason Spielman: 我認為 NoteLM 音訊總結功能爆發式增長的部分原因就在於它是一個簡單的一鍵式體驗。我之前在電話裡向我奶奶解釋如何使用這個功能,結果發現根本不需要解釋。我只要告訴她“把資料匯入進去”,她就回答“我看到了,然後點這個按鈕就能生成是吧”?我覺得正是這種建立的簡易性真正催化了 Notebook 的爆發式增長。所以,在考慮增加一些可控性的選項時,我們會很謹慎地去做這件事,保持這種產品簡單易用的特性。
Pat Grady:今天幾乎所有 AI 產品都還在圍繞對話方塊來展開,你們是怎麼想到讓使用者“聽內容”這件事的?為什麼人們會想要透過聽播客的形式來了解某些資訊?
Raiza Martin: 這件事來自 Jason 之前提到的一點,那就是:我們要怎麼以一種人們易於理解也易於接受的方式來呈現新的事物,讓他們願意去嘗試?當我們想到可以讓使用者上傳素材,然後生成新的語音內容時,我們就在想,到底能生成哪些語音內容呢?Google 的這個語音模型非常強大,既可以生成獨白,也可以生成對話,還可以讓使用者來選擇生成什麼格式的內容。但真正能引起人們共鳴的點在於,播客是一種對話形式,它能做的不只是把文字轉成語音,讓我們去聽朗讀的文字。我認為,一旦我們看到這種形式實際的應用,就會知道這就是我們要去做的事情。
02.
NotebookLM 的用例
Sonya Huang:你們提到人們最初是衝著播客功能來的,然後因為其他功能留下來。能分享一下音訊之外的好的 use case 嗎?
Raiza Martin: 我在前面提到過 NotebookLM 在教育場景的 use case,我看到很多學生和教育工作者在使用 NotebookLM,我覺得這件事對我個人來說很有意義。但令人驚訝的是,我發現有很多人在工作中也會使用 NotebookLM。
一個很好的例子是我們在 Google 內部試用 NotebookLM 時看到的一個 use case。Google 廣告團隊中有很多廣告銷售人員和廣告專家,這些廣告銷售人員的銷售培訓和文件往往有幾百頁那麼長,並且這些內容還會經常變化。要熟悉這些內容到能夠銷售的程度是很困難的。所以銷售團隊內部通常的做法是,或者說在有 NotebookLM 之前的做法是,互相詢問。一個典型場景是,他們會提出類似這樣的問題:“Joe,這個產品到底是怎麼運作的?我該怎麼向客戶推薦?”等 Joe 回覆後,他們再把回覆複製貼上到郵件裡,稍作修改就發出去了。
但實際上,像 Joe 這樣閱讀了所有文件、掌握了大量知識的人,他們會透過 NotebookLM 建立一個文件,然後分享給其他銷售人員,這樣就有上百人自動開始使用這個 Notebook,也因此他們不用再去諮詢 Joe 了。我覺得這件事很有趣,因為這是一個非常簡單的應用場景,但在此基礎上還可以開發出更多用途。
Jason Spielman: 我最近和一個做銷售的朋友聊天,他也提到自己做了一個 Notebook,在和客戶交流中遇到某些問題不清楚答案的時候,就會和這個 Notebook 對話,然後得到對應的答案。我認為這種知識分發的方式對於大規模的銷售團隊或資料中心來說非常有幫助。
另一個我覺得很有意思的 use case 是,很多在 VC 行業工作的人在日常工作中要看很多公司資訊和對應的檔案,我有位 VC 朋友說,他現在會把收到的文件或 deck 放進 Notebook 裡面,從而更加快速地處理這些資訊,工作效率差不多提高了 10 倍。
03.
如何設計出好的 AI-native 產品?
Sonya Huang: 你們在產品設計上做了哪些取捨來讓 Notebook 好用且便捷?
Jason Spielman: 我想先說明的是,我們到現在還是在持續不斷地做這些產品層面的決策,我覺得我們現在的重點在於快速推出產品,然後透過和使用者密切互動來理解什麼是最好的、他們想要什麼。今天模型能力迭代得很快,很難說基於模型能力再來決定做具體什麼事情。
但具體來講的話我認為我們有一個決策是做對了,就是讓左側的 Source 欄很突出。我認為我們是一個基於源文件的專案,我們需要明確表示你是在與你上傳的源文件對話。所以我認為左側的 Source 欄是這個產品的一個關鍵部分。另外一點就是正如我之前提到的,一鍵生成音訊總結對於產品傳播來說也很有效,我們在產品設計上整體傾向於這種簡單的體驗。
Raiza Martin: 我想補充一點我們在產品層面上的考慮,特別是在產品優先順序上,我們一直在思考的問題是如何讓一個新事物變得很直觀。要做到這一點非常困難,特別是像“首先使用者必須上傳一個源文件”這種細節,使用者通常會對這一步產生牴觸,他們可能第一反應會問“為什麼?”,因為在使用 ChatGPT 或 Gemini 的時候第一步並不需要上傳任何文件,直接就能用。所以我認為在“上手即用”這個方向上,我們還有很多工作要做。
Sonya Huang: 你認為在讓人們適應這種新的 AI 原生體驗時,還面臨哪些最大的挑戰?
Jason Spielman: 我覺得今天 AI 產品設計所處的階段可以總結為“擬物化(skeuomorphic)時代”。擬物化是指用虛擬物件來對映現實世界。在早期 iOS 中可以看到這個特點,比如 Apple 的 Note 應用頂部有皮革邊框,記事本頁面是黃色的,這是為了幫助使用者更容易從物理世界過渡到虛擬世界。我覺得今天我們在 AI 產品上的實踐也處於類似階段,我們首先要構建一些 UI 來滿足使用者當下的需求。但我也想強調的是,在不斷給使用者創造新奇體驗的同時,也要意識到,對許多使用者來說,這是他們第一次與 AI 互動。
Sonya Huang: 我認為 Midjourney 做得非常好的一點是,它很好地解決了使用者不擅長提 prompt 的問題。在你看來有沒有哪些 AI 應用在解決這些 UI 挑戰也做得很好的?
Raiza Martin: 我最近用了 Pika,我很喜歡 Pika 的效果預覽功能,透過這個功能使用者可以很清楚地看到上傳圖片後會發生什麼、得到什麼。在看到這些效果預覽的時候我就覺得這些嘗試很有趣,所以我上傳了一張飲料的圖片,然後選擇了一個蛋糕效果,想把飲料變成蛋糕。等待飲料變成蛋糕的過程讓我興奮不已,我甚至當時就在想是不是可以付費了。所以我覺得這種效果預覽不僅可以激發使用者使用產品的意願,甚至還可以驅動付費。
Jason Spielman: 我覺得 Claude Artifacts 做得很不錯。我認為他們在程式碼生成方面做得非常出色。我覺得我們今天所處的階段是怎麼平衡 AI 和人類之間的關係,我們想要建立一個 AI 產品絕對不想要取代一群人的工作,而是想提供更好的支援。我之所以認為 Claude Artifacts 是一個完美的例子,就是因為我們在和 AI 交流的同時,它就已經在開始按照我們的交流去構建一些東西了。
Sonya Huang: 在你看來,NotebookLM 的產品思路和 Claude 相比是有哪些異同?
Jason Spielman: 首先,我們和 Claude 最根本的不同是我們還是圍繞一個特定文件來展開互動的工具(source-grounded tool)。
Raiza Martin: 圍繞這一點來說的話,LLM 互動中圍繞上下文展開是一個很重要的特點,我覺得也正是因為上下文的存在才能創造粘性極高的使用者體驗。Anthropic、OpenAI 以及 Google 等所有參與 LLM 研究的人肯定都知道這一點,但我認為關鍵在於在什麼時候引入這個特點,以及基於什麼樣的互動介面?
這也是我對於 NotebookLM 感到興奮的原因。因為我們從一開始就突出了上下文互動這一點。當用戶意識到 source-grounded 的重要性時,就會發現 NotebookLM 會是他們在尋找的工具。所以我們當下也會更專注於這一點,在其它 LLM 工具還在專注其它 use case 時,我們會在這個方向上先走得更遠。
Sonya Huang: 你之前提到 Chat 是 AI 產品設計中的一種擬物化互動介面,NotebookLM 現階段在嘗試更前沿的方式,這種形態可能會是什麼樣子?
Jason Spielman: 我個人對動態 UI 很感興趣,Claude Artifacts 就是一個動態 UI 例子。但總體上我覺得我們目前還處於一個探索階段,但考慮到使用者是不是也能很好理解 AI 產品的意圖,我們能做的事情是比較有限的。所以現在我們要平衡這種 AI 帶來的無限可能和麵前的有限需求。
Raiza Martin: 我會更多地考慮傾向於新的模式。我自己做了很多原型設計,也實驗了很多自己的行為。我最喜歡的一個嘗試是我可以邊走邊和我的 LLM 交談,或者說和一整個 AI 生態系統進行互動。
我個人最近最喜歡的例子之一是,我開始透過這種方式來“寫”日記。不是我自己來寫,而是透過來回對話,讓 LLM 為我建立一個日誌,然後基於這個日誌來形成一個視覺化的內容,呈現的資訊大致是,這周我不開心的天數比開心的天數多,哪些是讓我開心的事情,哪些是讓我不開心的事情。我認為在互動中會產生更多豐富的內容。
我們現在嘗試的這種基於一個特定源文件的 AI 有一些非常實用的 use case,主要集中在工作和學習場景。但個人用例也非常吸引人,所以我在思考如何把我的這些個人產品實踐的經驗帶回到 NotebookLM 中,也許是在 Mobile App 裡。
04.
NotebookLM 的未來
Sonya Huang: 關於 NotebookLM 的增長有哪些可以分享的?
Raiza Martin: 我可以簡單分享一些情況。在推出音訊總結功能之前,NotebookLM 的增長一直比較平穩,但自從推出這項功能後,產品的增長速度就迅速加快了。所以音訊總結成了吸引使用者嘗試我們產品的一個非常好的切入點。另外值得一提的是,雖然使用者最初是被音訊總結吸引來的,但他們往往會因為其他功能而繼續使用我們的產品。這個現象很有意思,它讓我們看到使用者到底想從 Notebook 這樣的工具中獲得什麼。
Pat Grady: 你們往前推進這個專案的思路很像一家創業公司,團隊足夠精簡、和使用者互動足夠多、產品快速迭代。這和大家印象中 Google 做事情的方式不太一樣。加入 Google 對你們做 NotebookLM 有什麼幫助嗎?
Raiza Martin: Google 做得比較好、也比較特別的兩點是,首先,在模型完善之前,我們就能接觸到它們,提前瞭解計劃推出的功能,這能幫我們從不同的角度去思考該如何開發產品,從而可以更好地去規劃該怎麼完善產品的整個開發流程。其次,我們團隊裡的人都非常聰明,很有才華,也很善於合作,而且都很希望能打造出好的產品。
所以,作為產品的開發者,能夠同時集齊這兩大要素,就很幸運了,之後只需要去執行交付就可以了。只要繼續做下去,就一定能做出有意思的產品。
我覺得,我們做的一件打破常規的事是,我們最在意的是先把產品做出來。因為我之前在 Google 工作過,我經常會想這樣做會不會產生這樣那樣的影響什麼的,要考慮的事情太多了,但其實一旦我們的目標是推出產品,就必須不惜一切代價去實現它。
Jason Spielman: 現在很多人會誤以為 Google 做事情很慢。但是我在 Google 工作的 7 年裡,我其實發現事情推進得非常快。有些團隊的規模很大,他們每天影響的使用者能有幾個億,所以會在決策上更加審慎。我們團隊現在其實是處在一個最好的位置,既擁有大公司擁有的規模和資料優勢,但也足夠精簡,我們團隊大概有 10 人左右,所以我們的速度也會很快。
Sonya Huang: 你們對 NotebookLM 下一部分規劃是什麼?
Raiza Martin: 說實話,就是繼續往下開發 NotebookLM。我們希望使用者體驗能更好,能讓他們真的把 NotebookLM 用起來,讓人們願意留下來繼續用它。
Pat Grady: 你們覺得現階段 NotebookLM 還有哪些是沒做到的?
Raiza Martin: 如果我能回到過去,在釋出之前多設計一些功能,我想要在產品層面實現更好的內容分享。我在刷 X 的時候會常常看到有一部分人為了呈現 NotebookLM 使用了一些影片或視覺化工具,而不是最原生的 NotebookLM 的介面,我就覺得自己錯過了這部分使用者,因為他們去用了別的平臺。所以,對我來說,NotebookLM 缺的是音訊總結的分享和協作功能。
Jason Spielman: 我比較期待能增加寫作功能。比如很多人都會做 Q&A 調查,然後基於 Q&A 收集到的答案來完成新的內容創作,所以我很期待能讓 NotebookLM 參與到使用者創造內容的整個過程裡。
Sonya Huang: NotebookLM 生成的內容質量確實高,對我來說,甚至已經可以取代人類做的播客了。但為什麼你們會認為現在 NotebookLM 做得還不夠好,還不能取代人類做的播客?
Raiza Martin: 在我們的觀察中,使用者想要做成播客的內容,和很多人類做的播客內容其實並不重合。比如說,我非常喜歡 Lenny’s Podcast,但我不會想要把他的播客做成一篇文章,再重新生成新的播客去聽,而是會直接聽他的播客,聽他對某個話題的看法是什麼。
有些使用者會用 NotebookLM 給他們的簡歷或者 LinkedIn 的個人資料頁來製作音訊總結,還有些初創公司的創始人會把他們公司登陸頁的內容放到  NotebookLM 裡,來看看他們的資訊表達得是不是足夠清楚。這些做法都很有意思,因為之前從來沒有人會給自己的簡歷做播客。
Jason Spielman: NotebookLM 的音訊互動其實和播客是不同的媒體形態。雖然 NotebookLM 生成的音訊聽起來是播客,但 Raiza 舉的這些例子也很好地說明了,人們會把它用在各種各樣的場景中。我覺得可以去想問什麼今天社交媒體上有很多 reaction 影片。人們現在來聽這期播客不僅僅是因為我們,也是因為他們想聽到你們作為投資人對這個領域的看法,所以當我們在討論播客的時候,不同立場、背景的人之間的討論互動也是要考慮到的。
Raiza Martin: 關於這一點我想分享一個很有意思的點。雖然很多使用者都在分享他們生成的音訊總結,但這個東西其實是很私人的。就像我做了個人簡歷的播客,但其實我並不是為了讓其他人來聽我的簡歷。還有人在 TikTok 上上傳了她從 2004 年開始寫的日記,像這種事情如果做成播客一起聽,肯定很有意思,但是對她來說,有意思的是她自己寫的日記可以被轉成音訊的過程,她可能也不會專門去聽同類型的播客。
我最喜歡的一個 use case 是,最近有人說,週末的時候他們的大學群裡突然因為某件事大家聊了很多內容,不過他們並沒有選擇在當時去讀這些訊息,而是把它們全部複製貼上到一個文件中,放到週一早上開車上班的時候聽,我覺得這真的很棒,個性化生成就是這樣的。
Sonya Huang: 今天的 NotebookLM  除了有 Podcast 這個 Killer feature 之外,還提供了一個面向很多場景應用的 horizontal 的互動的介面,你認為接下來還會做什麼?是繼續強化播客這個功能嗎?比如有沒有可能可以生成一段 YouTube 影片?
Raiza Martin: 輸出影片的話需要看成本什麼時候能降下來。
對於我們來說,首先,我們現在想要實現的是,讓使用者能夠匯入各種型別的內容,然後用 AI 創造出新內容。播客當然是我們想要繼續探索的一種輸出形式,因為我們已經看到人們都很重視播客。
其次,我們也想往其他方面發展,做一些更實用的東西,因為每個人的偏好都不一樣,甚至就在兩三天前,還有人問我,“能輸出播客確實很好,但你能讓輸出的程式碼質量更高一點嗎”?這個方向也很好,但對我們來說都只是 roadmap,我們確實要想想怎麼去探索輸出的形式。
排版:Fia
延伸閱讀

相關文章