
“當人類使用 AI 作為入口,搜尋引擎的消費者將只剩下 AI”

不像西部世界的 AI 那麼智慧,現在的 AI 經常沒辦法滿足我的小眾需求。
我開始以為是模型能力的問題,但是試用了各家的 AI 發現它們都因為使用的搜尋引擎 API 無法搜出相關內容而無法解答。
想不到制約大模型發展的是居然是現有的搜尋引擎!
現在的搜尋引擎面向的主要人群都是人,那麼有沒有一個面向 AI 的搜尋引擎?

於是上 X 一搜,還真的發現了一家叫 Exa 的公司做了類似的事情!居然還獲得了 Nvidia 和 YC 投資!!
比較有意思的是,這個搜尋引擎的 CEO 還自稱 Exa 是史上最慢的搜尋引擎。
經過一輪官網挖掘,我發現這玩意很有潛質,而且不單能作為搜尋 API 給 AI 用,也很適合普通人。
HR 的全網撈人神器
以前給公司招聘的時候,經常找不到合適的人選:每天限制打招呼的個數,發簡訊還要開會員按條收費!
我試了下用 Exa 搜尋人,以下是我給出的文字要求:
Exa 在一杯 ☕️ 的時間裡找到了上面的結果。
而且,竟然直接用表格的方式給我呈現了出來——

你還可以點選具體的 URL 找到對應的人的領英檔案,感覺滿意的時候還可以下載整個資料集。
作為對比,以下是 Google 和 OpenAI 在面對同樣請求時的結果:

好用了不只一點,默默為逝去的那些資料整理的夜晚表示不值 😭
於是我開始好奇到底咋做到的呢?
將整個網際網路內容向量化

我搜了下 Exa 的技術部落格,發現它用到了現在很流行的語義搜尋,也就是 RAG(Retrieval-Augmented Generation)。

但是區別在於,別人用語義搜尋搜尋的是自己公司或者垂直領域的資料,但是 Exa 更進一步:
Exa 試圖抓取整個網際網路的內容並將其編碼為 AI 友好的形式。
為什麼要這樣做?答案是:巧婦難為無米之炊。

透過研究,Exa最近還提出了 AI 搜尋界的 Scaling Law——

下面的圖表展示了在搜尋過程中,隨著計算量的增加,匹配結果數量的變化情況。

從圖中的資料點可以看出,隨著搜尋時計算量的增加,匹配結果的數量也在增加。
結果的增加可以讓 Exa 更好地找到使用者真正關心的長尾資訊!
-
例如,當用戶搜尋“製作大模型晶片的初創公司”時,Exa 的搜尋引擎會預測接下來可能出現的連結,而不是簡單地匹配關鍵詞,從而提供更符合使用者需求的結果。 -
再比如,一位專注於科技領域的使用者在搜尋“最新的智慧手機技術創新”時,Exa 會優先展示與該使用者興趣高度相關的專業評測、技術分析和行業動態等內容; -
對於一位普通消費者,搜尋同樣的關鍵詞時,Exa 可能會更側重於展示通俗易懂的產品介紹、使用者體驗分享和購買指南等資訊。

下面是一個通用的搜尋流程:
-
選中你想要的資料型別:公司、人、文章,或者自定義你想要的型別 -
輸入搜尋的文字要求 -
喝一杯咖啡 ☕️(CEO:能不能給我一首歌的時間?) -
等待搜尋引擎匹配相關 Embedding 並返回結構化的資料表

可以看到在這個例子裡,Exa 找到了 1057 個結果,並且返回了 108 個和搜尋要求相關的結果,你甚至不需要寫哪怕一行 Python 程式碼。
燒錢造護城河
有人肯定會有疑問,既然語義搜尋那麼好,為什麼 Google 不直接將其全量應用到自身產品上?
答案是因為語義搜尋貴,而且搜尋起來慢
首先,編碼頁面而非索引關鍵詞的過程緩慢且昂貴。雖然 Exa 已經編碼了數十億個網頁,但與谷歌索引的約一萬億個網頁相比,這只是一小部分。
此外,Websets 的搜尋速度較慢,有時需要幾分鐘才能返回結果。
然而,Exa 的聯合創始人兼執行長威爾·布里克(Will Bryk)卻認為這是值得的,讓我們來看看他是怎麼說的:
我相信隨著技術的不斷發展和完善,語義搜尋將對未來的資訊檢索領域產生深遠影響。
連 Nvidia 和 YC 都看中了這個領域的潛力,這才有了標題說到的投資史上最慢搜尋產品的故事。
當然我更擔心的問題是,單個搜尋這麼耗費算力,這個引擎免費開放看來是遙遙無期 😭
那麼重點來了?那搜尋的時候到底應該怎麼選搜尋引擎?
靈活選用搜索引擎
即使 Exa 帶來了全新的搜尋體驗,但它也並不是一個銀彈(萬能膏藥)。
基於 Embedding 的搜尋(如 Exa)在具體匹配時候會稍遜一籌,我的理解是 Embedding 是表示現實世界中的人、地點和事物等實體的好方法,但如果試圖用 Embedding 表示整個句子或頁面文字,會丟失很多資訊。
例如,將《戰爭與和平》表示為單個 Embedding,會失去故事中發生的幾乎所有具體事件,只留下其體裁和時期的大致感覺。
關於選用合適的搜尋引擎型別,我自己的體驗是:
-
當你不確定你在找什麼的時候:可以用 Exa,例如對於查詢“一篇關於金融領域大語言模型的有趣部落格文章”,Exa 的表現優於其他搜尋引擎。


最後
雖然 Exa Websets 正式版本還沒有上線,但我已經搶先加入了試用佇列。
期待用 Exa 找出房子大,消費低,旅遊方便,適合地理套利,網好,最重要是適合中國胃的 N 個旅居城市!
感興趣的小夥伴也可以在這裡加入試用佇列:
https://exa.ai/websets
懶得加入的也可以留言自己想搜尋的東西,等我拿到資格後給大家出一期 👀


