


作者:Cage
編輯:Cage、penny
排版:Scout

麥克盧漢說過,舊的媒介會成為新的媒介內容的一部分。Google 中搜索到的知識成就了 ChatGPT 學習到的海量語料,但 ChatGPT 本身無法取代 Google。因為 ChatGPT 記不住所有的知識,也無法保證知識的即時性。因此,檢索 (Retrieval) 技術被引入 LLM 應用中,問答引擎這個結合搜尋和 LLM 的產品品類就出現了。
Perplexity AI 是目前產品體驗最好、知識獲取最準確的問答引擎,在使用者中口碑顯著優於 Google Bard 和 Bing Chat。其最大的特點是產品迭代速度快,Retrival 系統最佳化好:具體體現在生成速度快、模型 Hallucination 少,且回答中的每一句話都明確標註了引用來源。但由於核心使用者都在知識領域使用 Perplexity,目前尚很難成為一款低門檻的大眾化使用產品。生活/購物助手等更高價值的場景可能是其使用者泛化的路徑,但該領域要競爭的是對於 Workspace、Shopping、Map 等深入積累的 Google。
作為創業公司,Perplexity 的重心在於打磨產品和召回系統,而不是自建模型+搜尋技術棧。後者現在用的是 OAI 和 Google/Bing 的api,但這樣做成本偏高,且定價權掌握在別人手裡,Bing 已經將其 search api 的價格上調了 10 倍。
作為一款知識生產力向的產品,Perplexity 目前以 20 美元的訂閱制進行商業化,但這個商業模型對於問答引擎這樣高 inference 成本的產品是不可持續的,尤其所挑戰的搜尋引擎有一套極其成熟的商業化模型,能使使用者、商家、創作者同時受益。接下來 Perplexity 必須要在商業化方面發力:如何幫助開發者和企業最佳化其搜尋體驗,如何將廣告無縫地銜接入 AIGC 和 UGC。如果沒有長期新的商業模式出現,Perplexity 當前的形態更可能成為 Gen AI 時代的新 Quora + Wikipedia;如果探索出了 LLM native 的商業模式,Perplexity 具備挑戰傳統搜尋的潛力。
以下為本文目錄,建議結合要點進行針對性閱讀。
👇
01 資訊組織粒度的變化:從搜尋引擎到回答引擎
02 產品:精心打磨的問答引擎
03 技術:定位應用層,使用技術巨頭的 api 開發產品
04 團隊與商業化發展
01.
資訊組織粒度的變化:從搜尋引擎到回答引擎
獲取最前沿的科技行業資訊
在網際網路時代,搜尋引擎將資訊以網頁為最小粒度為使用者進行排序和推薦。
LLM 的出現使資訊組織的最小粒度發生了變化:LLM 學習了所有 Google 上能得到的資訊,將知識以詞彙為最小粒度生成相應的內容。很多使用者更青睞靈活度更優的後者,開始與 ChatGPT 互動獲取各類知識。
LLM 本身是好的知識獲取平臺嗎?著名科幻作家 Ted Chiang 對 ChatGPT 取代搜尋引擎是相當悲觀的,他說:“ChatGPT 是對網路模糊壓縮的 JPEG。” 在這篇著名的紐約客文章中,他認為網際網路使用者需要有精確的索引和參考依據。不然過度依賴 ChatGPT 那樣的有失真壓縮,會讓人們失去對事物追根溯源的思考能力。
而有失真壓縮在生產力場景很難嚴肅使用有一個重要原因:Hallucination。模型會模仿人類的口吻說出一些實際不符合事實的內容,有時很難分辨其真偽。因此,大家當前普遍使用的解決方案是 Retrieval Augmentation —— 把與問題相關的事實交給模型一起加工和學習。

這樣模糊與精確兼備的產品,是“回答引擎” —— 當前最接近下一代搜尋引擎的產品形態。Google Bard、Bing Chat 和本文的主角 Perplexity AI 都是這一品類的代表。接下來就將從產品、技術棧等方向去詳細分析各回答引擎、尤其是 Perplexity AI 的主要特點。
02.
產品:
精心打磨的問答引擎
出色的產品迭代速度
Perplexity AI 是一家 Gen AI 應用層公司,模型或技術棧能力不是核心價值,產品迭代能力強是重要特點。Nat Fridman,Github 前 CEO 在今年初稱讚過 Perplexity:創立不到六個月,比很多公司全生命週期釋出的產品迭代都更多。

回到其產品公測的第一天:22年12月8日,Perplexity 釋出了其 beta 版本的搜尋產品 Ask。根據使用者的問題,輸出用 Bing 搜尋引擎結果驗證過的 GPT 3.5 回答。其最早的產品與搜尋引擎很接近,將文字輸入頂端對話方塊之後,出現下面兩段式內容:
第一部分是 AI 生成的總結,其中包含有引用內容和索引;第二部分是 AI 生成過程中參考的連結來源,會且只會出現 3 條。在生成內容下方可以給反饋:like 和 dislike,也可以轉發到推特促使自然裂變。

最早產品形態
12 月 16 日,Perplexity 緊接著釋出了第二款產品:Bird SQL,能夠根據自然語言搜尋推特中的內容。其實現方式是,用 OpenAI Codex 模型將自然語言變成 SQL,從當時還開放的 Twitter SQL 介面去查詢到最相關的 post。


由於 Twitter 自身的搜尋功能最佳化得很差,這一功能在早期受到了很多好評。因為產品的查詢是基於 SQL 實現的,還產生了很多有趣的資料視覺化,與 ChatGPT 最近受到熱議的 code interpreter 有些相似。


可惜在今年 2 月底,Twitter 關閉了這個介面。從這個產品能看出 Perplexity 對搜尋理解很深,且能抓住當時 Google、Bing、Twitter 都沒有透過 LLM 最佳化自己搜尋能力的時機,快速推出市場認可的產品。Twitter 的搜尋經驗在未來也能幫助其他公司的資料庫最佳化其搜尋能力。
今年 5 月,Perplexity 又大幅迭代了產品,問答引擎中的 Agent 實踐:推出基於 GPT-4 理解和規劃能力的 Copilot。在這款產品中,輸入的問題中缺失的細節會由 Copilot 給出一些選項和輸入框,使其能夠讓使用者更精準地傳達自己的需求。這一能力在輸入複雜問題的時候,能給到更可控且準確的回答。當前的 copilot, 雖然只是一個界定了能力邊界問答引擎助手,但卻可能在嘗試定義和探索未來基於 LLM 能力的 AI agent UI 形態。

與這一產品釋出的還有 AI profile 和 Perplexity Pro 方案,前者是使用者自己的背景和偏好介紹,在使用 Copilot 的時候能體驗到一定的個性化內容;而後者是一個月 20 美元無限使用 Copilot 的額度。


根據 Lilian Weng 最新部落格中的定義,Agent = Planning + Memory + Action with tools。Copilot 本身是 planning 的體現,AI profile 是 memory 的形式,而 Actions with tools 是當前 Perplexity 當前相對缺失的,也是最可能在之後和 Google 的競爭中落下風的:Google Workspace 中可以給 Bard 使用的工作和地圖工具很多。
除了上文中這些重要迭代,Perplexity 產品還經歷了一系列小迭代:

Perplexity 推出產品已經 7 個月了,開發和迭代速度很快,對 LLM 的想法也非常的應用思維:用好模型是第一位的,儘管他們有了自己的模型也不做任何宣傳,因為認識到模型能力很難和 GPT-4 level 直接競爭。他們對搜尋也有著很深的執念,目前 Ask、Bird SQL、Copilot 都圍繞著核心命題:如何用 LLM 最佳化搜尋的體驗。
產品評價與反饋
Quantative Analysis
搜尋引擎有一套嚴謹的指標體系,如 Precision@10(前十個結果是否解決使用者的問題)、CTR(點選數/展示數),但這些指標對單個生成式的結果並不合適。Percy Liang 團隊今年 4 月的一篇論文 Evaluating Verifiability in Generative Search Engines 中提出了一套對於生成式搜尋引擎,也就是回答引擎的評價標準:
1. 體感效果:
• 文字流暢度
• 內容有用性
2. 引用能力:
• Recall(引用是否完整)
• Precision(引用是否準確)
經過他們對每個問答引擎 1450 道題的提問,評分如下:

根據這一套評價體系,各回答引擎的生成體感效果總體都不錯,其中 Youchat 的體感是最好的,Perplexity AI 排名第二,Bing Chat 墊底。
而到了引用能力部分,總體的表現就差了些。尤其是第一part表現良好的 Youchat 就出現了嚴重的可用性問題,大部分內容都沒有得到文字支援。Perplexity 是在準召率上做得最平衡全面的,而 Bing Chat 儘管引用準確,但也和 Youchat 類似召回率偏低。和體感評分相比,這一項各產品的評分都不算高,Perplexity 是當前相對最好的。
因此,將以上評估指標投射到座標軸上,可以看到在量化評估中 Perplexity AI 收到的評價是最好、最全面的。(注意,評測時 Perplexity 用的是免費版本不用 GPT-4 的,而 Bing 的是已經用上了 GPT-4 的版本,可見 Bing Chat 的表現不如人意):

Qualitative Analysis
Perplexity
Perplexity 作為回答引擎有兩個重要的產品特點:
1. 很強的知識產品屬性,閱讀和分享體驗與 Google 相比,接近 Wikipedia 和 Quora:
• 顯示文字引用來源:每次生成的回答中會有 3-5 個連結,來佐證其生成內容的準確性。閱讀體驗非常類似學術文獻閱讀,且來源可以控制:如果不喜歡華盛頓郵報的內容,就可以將其從 source 中刪除,重新生成。
• 有完善的查詢歷史和內容分享:每次對話會生成一個連結 permalink,成為與其他使用者分享的知識百科頁,自己過去查詢的歷史也會完全記錄下來。(詳見reference)
其他的產品更多的是將查詢內容當作聊天記錄隨用隨拋,而 Perplexity 則將其作為維基百科,可見其對自己生成內容是更有信心的。

• 焦點搜尋功能:在搜尋框下方,有個下拉選單,其中包含多個領域,例如YouTube、新聞、Reddit、學術等(學術專區增加了 SemanticScholar、Arxiv 和 NIH 等資源)。這個能力可以使搜尋效果更為聚焦,使用者調研中常見使用於學術研究和創意寫作相關。

2. 將 LLM 和搜尋結合得很好,儘可能減少了 Hallucination:
• 生成內容簡潔且可靠:在與多問題引擎對比的時候,Perplexity 是最能用有限的字數準確回答問題的產品。Bing Chat 有時回答過於簡短需要反覆追問,Google Bard 有時回答太過冗長,需要從中提煉出關鍵資訊。結合有使用者反饋 Perplexity 生成的內容有大約 650 字的字數限制,能夠精煉地提供言之有物的回答,是問答引擎這個場景的重要標準。
• 理解問題並拆解、主動反問的能力:在 Copilot 產品中,AI 能夠根據問題理解,並且深入問題的細節反問得到更多資訊,再去進行搜尋。這裡是靈活使用 GPT-4 的規劃和理解能力,透過 prompt engineering 去引導其提問和反問,使生成的內容質量更高,可控性更強。


• 多輪對話:在同一次搜尋中可以不斷追問,得到更接近自己想要的內容,在產品形態上兼具了 Chat 和 Search 的優點。實際使用時,偶爾會有多輪記憶和理解上的遺忘現象。
• 基本沒有Hallucination:有主動表示搜尋結果中沒有符合問題答案的能力。
• 多語言能力不錯,生成速度快:Google Bard 目前只支援英語,Bing Chat 在瀏覽那一步的速度較慢。
Comparison with Bard and Bing

03.
技術:定位應用層,使用技術巨頭的 api 開發產品
技術對比:傳統搜尋引擎技術棧
Google/Bing 搜尋引擎的大致技術模組包括以下幾個模組:
1. 內容收集和整理:
這一層負責抓取網路、下載網頁並解析它們以提取內容。它還包括一些過濾和最佳化內容的過程,如刪除重複頁面、檢測垃圾郵件和按主題分類頁面。
• 抓取:谷歌的抓取器,也稱為Googlebot,負責訪問網站並下載頁面。它們使用各種技術來避免使網站過載,例如限制每秒訪問的頁面數量和遵循robots.txt檔案。
• 解析:頁面下載後,會對它們進行解析以提取內容。這包括頁面上的文字、影像和其他媒體。解析器還識別頁面的標題、關鍵字和其他元資料。
• 過濾和整理:從頁面中提取的內容接著進行過濾和整理。這包括刪除重複頁面、檢測垃圾郵件和按主題分類頁面。
2. 搜尋核心:
這一層負責對內容進行索引並建立搜尋索引。它還包括一些用於在搜尋結果中對頁面進行排序的演算法,如PageRank,它根據頁面與其他頁面的連結關係衡量頁面的重要性。
• 索引:經過過濾和整理的內容隨後被索引。這涉及到建立一個包含頁面及其內容、元資料和排名資訊的資料庫。
• 排序:索引中的頁面使用各種演算法進行排名。這些演算法考慮到頁面的內容、指向頁面的連結等因素。
3. 使用者和應用程式介面:
這一層負責與使用者互動並向他們提供搜尋結果。它包括谷歌搜尋網站以及允許其他應用程式訪問搜尋結果的API。
• 谷歌搜尋網站:谷歌搜尋網站是谷歌搜尋引擎最著名的使用者介面。它允許使用者輸入搜尋查詢並檢視搜尋結果。
• API:谷歌還提供了一些 API,允許其他應用程式訪問搜尋結果。這使得開發人員可以建立與谷歌搜尋引擎整合的自定義搜尋應用程式。

這些技術模組共同構成了 Google/Bing 搜尋引擎的基本架構,而 Perplexity 的搜尋能力是建立在這些巨頭的能力之上的。

而 Perplexity 的技術棧則直接基於 Google/Bing 的技術來繞過了需要長時間積累和工程複雜度的爬蟲、資料庫系統。其流程可以分為以下幾個部分:
1. Google/Bing 搜尋返回:
從他們的查詢引擎 api 返回與使用者 query 有關的網頁內容。
2. 索引系統:
將內容向量化進行細粒度的處理和組織,目標有二,其一是方便排序時能理解和定位到網頁中與使用者問題最相關的內容,其二是可以將 api 返回的內容儲存以用作之後複用。
3. 排序系統:
以語義搜尋的方式 retrieve 最相關的內容,交給 LLM 作為 input 進行學習。

4. 問答系統與 LLM 呼叫:
LLM 根據召回的內容進行學習,輸出對使用者 query 的解答,並在其中對引用內容進行標註。學習過程中根據使用者選擇和系統判斷決定使用自研模型還是 OpenAI 的模型。
成本測算:長期需要自研 search stack 以降低成本
使用大公司的 api 使他們能專注於最佳化產品,但也會拉高成本。他們意識到這點,回到了 ML Researcher 的老本行開發了 7B 的自研模型,成功將 query 中 LLM 生成成本降低到了相對低的水平。
但與此同時,和 Twitter 關掉自己的資料庫一樣,Google/Bing 也察覺到了搜尋引擎 startup 的動向,將其 search api 的價格抬高了 10 倍左右,對 Perplexity 等不自建 search stack 的公司造成了壓力。以 Bing Search API 為例:

漲價後,單次 Bing Search 的成本在 0.015 美元,而 LLM 互動成本(如果自研模型成本能達到 GPT-3.5 一半的話)也就在 0.02 美元左右。因此接下來如果要將產品可持續地擴大使用量,search stack 的自研會使成本降低 30% 左右。按當前的假設估算,Perplexity 維持當前的搜尋量和技術棧,一年需要的成本在 1000萬美元以上。技術非自研會對其未來的 runway 有比較大的影響。
04.
團隊與商業化發展
團隊:創始科學家比例高,
LLM/search/ranking 經驗豐富

Perplexity 團隊目前有 18 人,其中一半以上是 Engineering Team 的。團隊優點明顯:創始團隊對 LLM 有很深入的理解,工程團隊對 Ranking /問答系統有很豐富的經驗。大部分之前都在獨角獸或大廠工作,有 3 位成員之前在 Quora 工作過。接下來重點介紹幾位團隊中的重要成員。
CEO Aravind Srinivas 來自印度,博士期間才移民來到美國。Aravind 是 UCB 的 CS Phd,主攻方向是在計算機視覺和強化學習中融入 Transformer 模型。Phd 期間,他先後分別在 OpenAI、DeepMind 和 Google 做 Research Intern。畢業後,他加入 OpenAI 工作了一年,研究語言模型和擴散模型。22 年 8 月,離開 OpenAI 創立 Perplexity。
和他一起創業的是 CTO Denis,有很強的搜尋和工程背景。11-13 年期間,他是 Bing 團隊的工程師,之後來到 Quora 成為排序演算法的 Tech Lead。16 年從 Quora 離開後加入 Facebook FAIR,同樣開始做計算機視覺和強化學習相關的研究,18 年開始在紐約大學做 AI Phd。
Aravind 在訪談中誇過 Denis 很會招聘,團隊第三人就是 Denis 招來的:CSO Johnny Ho。他是哈佛大學數學/CS 雙學位,畢業後在 Quora 待過一年,當時在 Denis 的 team 工作。離開 Quora 之後,他成為了職業程式設計競賽選手、量化交易員。用 Aravind 的話說,Johnny 是 Perplexity 運轉迭代速度高效的重要原因。在官方的 Discord 和 Reddit 中,Johnny 是主要的運營和收集使用者反饋的那位,在團隊中是複合型的多面手。
Andy 是 Databricks 的 Co-founder,CS Phd 出身的他在 Databricks 承擔了很多創業公司運營相關的工作,先後做過 VP of professional services 和 VP of Product。在 Perplexity 早期,Andy 作為 President 以其連續創業的經驗幫助公司少走了很多彎路。
Henry Modisett 是 Perplexity 的 Founding Designer。在加入 Perplexity 前,他在 Quora 待了 8 年,從產品早期的年輕設計師一直成長為產品的 design lead & manager。Quora 的 feed 流、問答和 Google 郵箱 iOS 產品設計都有他的參與。他在今年 2 月加入,那之後的產品迭代 feature 設計可能與他緊密相關,比如 4 月的網頁設計風格改版和 6 月的 Copilot。
融資歷史:天使投資陣容豪華

值得一提的是,團隊的天使投資人陣容極其豪華,基本全是海外 AI/ML 的核心人物:


商業化進展:
早期核心使用者穩定,尚需跨越鴻溝

在今年初創始人 Aravind 接受採訪的時候提到,Subscription 對問答引擎不是一個好的商業模式,Google 才是 role model。6 月,GPT-4 的接入和 Copilot 功能釋出後,高額的 api 成本使 Perplexity 開始推出會員制產品:付費會員所有 query 回答都以 GPT-4 進行回答和生成,每天有 300+ 次 Copilot 使用額度。
對於 20 美元一個月的產品而言,使用者的評價相對兩極分化。有一部分使用者認為其價格與 ChatGPT/Poe 持平是比較貴的,因為其提供的就是一個更可靠的 ChatGPT + Browsing 能力,而 ChatGPT 還有其他更豐富的 plugin offering,Poe 有 Claude 等其他 LLM 的接入。
Pro 方案推出三天後就有了 1000+ 付費使用者。使用者評價以大多是好評,認為 Pro 產品並不是單純換了個模型 api,而是做了更用心的最佳化,使用 GPT-4 之後的查詢體驗更好,Hallucination、Latency 等效果好於 ChatGPT。商業化收入的快速成長,代表 Perplexity 已經有了穩定的核心商業化客戶。
此外,團隊還有其他的商業化想法:
1. 提供問答引擎 api:成熟需求,上千開發者來詢問過。
2. 專業版個性化 Indexing:
• To C:個性化體驗(使用者自己的連結、書籤);
• To B:工作流工具,Index 工作中的合作儀表盤等。
3. 廣告:如何用 Gen AI 做營銷是當前最有趣的 Open Question。
未來發展分析
Upside:
顛覆搜尋引擎市場,
爭奪 Google 的市場份額
搜尋引擎是一個巨大的壟斷市場。在過去的五年中,Google 都保持著 90% 以上的市場佔有率。在榜單上的公司都已經有 10 年以上的歷史。一方面,這讓他們積累了非常深的系統 Infra 優勢,讓後來者很難超越;但另一方面,這也使這些公司有著很深的 Legacy Problem,很難讓產品徹底的轉型。

Data Summarized by Perplexity
同時,搜尋引擎市場也非常大:2022年穀歌搜尋的收入是 $283B,Bing 的收入是 $11.5B。即使是市佔率 5% 以下的玩家仍然收入不錯。
但要侵蝕一部分 Google 的搜尋市場佔比,最大的挑戰會是商業模型。Google 商業模型除了給使用者提供高質量的搜尋引擎外,還有兩個非常重要的輪子。其一是廣告主營銷,只有實現了滿足廣告主的商業化系統,才能有良好的現金流使使用者免費地用上高質量的搜尋系統;第二是創作者激勵,內容釋出者能夠透過在網際網路上釋出高質量內容,得到平臺和廣告主的激勵,是其源源不斷髮布內容的動力。儘管 AI 看似減少了創作端需求,但還是需要使用者去創作高質量的內容交給 AI 來學習和召回。

除了商業化上的難點之外,還有產品形態上的難點。廣告模型下的搜尋引擎,天然是有良好的資料飛輪的:使用者的瀏覽和點選行為,反應了使用者的偏好,同時反饋到排序系統和廣告競價系統,使搜尋引擎的效果更佳。
這樣的資料飛輪在當下的問答引擎中還未出現:Chat 的形式並不方便使用者直接去做偏好反饋,使用者也不會有額外的時間去專門為答案做編輯或修改,Like/Dislike 類標籤的比例也只有 10% 使用者給出。問答引擎需要一個好的產品形態,來讓使用者使用的同時自然地給反饋,才能讓產品在 Google 面前有競爭力。
當商業模式和產品資料飛輪的問題都能有原創的新解法,且不容易被複制時,相信 Perplexity 有潛力成為一家撼動巨頭的公司。
Neutral:
Gen AI 時代的 Quora/Wikipedia
撼動 Google 的市場可能暫時是一個好高騖遠的目標,而成為新時代的 Quora/Wikipedia 這樣的知識平臺是完全有可能的。
在網際網路時代,這兩家公司都以優秀的知識產品出名,但是苦於沒有好的商業化能力,沒法持續的激勵創作者留在平臺上,流量價值進一步減少形成了負反饋迴圈。而 Gen AI 的出現正減少了內容供給上的壓力,AI 替代大部分人類創作者組織和整理知識成為可能。從 Perplexity 當前的產品形態上,有很多知識產品的理念,核心使用者群也常常使用其做知識研究類工作。
Downside:
獨到的收購價值,Tech Giants 可能都需要 LLM + Retrieval 能力
Perplexity 團隊是很獨樹一幟和清醒的:他們把使用者的信任而不是技術棧作為自己的 moat。儘管從表面上來看,Perplexity 用的是 Bing Search 和 OpenAI 的 api,但技術棧類似的 Bing Chat 比 Perplexity 使用體驗糟糕很多。可見其中有很多 Indexing、Prompting 等相關的技術和設計是比較複雜有技巧的,要做到嚴肅場景下的使用是一件很有門檻的事情。

最近巨頭開始了一波收購潮,Snow 收購了 Neeva(之前Perplexity 的競爭對手,由於其完整的 search stack,被收購後專心做 enterprise search),Databricks 收購了 MosaicML,都還在技術棧查缺補漏的階段。但經過這一階段的探索,大家都會發現只有好的 LLM 是很難在商業環境下有好的使用效果的,LLM + Retrieval 是必要的解決方案。這時,Perplexity 這樣一個深入理解 LLM 和 Retrieval 技術與應用、在一個紅海賽道階段性領先巨頭的團隊是否會有著更高的收購價值呢?

Reference
https://www.perplexity.ai/search/4f22f1bd-e957-4a50-bc9e-591f16f42464?s=c。



延伸閱讀
關鍵詞
模型
谷歌
公司
搜尋引擎
使用者