嘉賓:Chang She
訪談:penny,Cage


03 訪談正文
• 多模態下的資料庫機會
• Lance
• 產品路線圖
01.
AI-native data infra
AI 的飛速發展為 Data Infra 資料基建帶來了前所未有的挑戰和機遇。隨著 LLM 和多模態AI的興起,非結構化資料的規模指數級增長,這不僅加劇了資料儲存和管理的難度,也對資料的高效檢索和分析提出了更高要求。
就像在雲計算時代,Snowflake 和 Databricks 成為了資料乃至整個軟體行業最快增長的產品,而到了 AI 時代,我們也相信會誕生新的資料產品。
新時代資料產品需要解決的第一個問題是多模態資料規模提高之後帶來的 scalability 挑戰:

Source: LanceDB Data+AI Summit Talk
• 非結構化資料在 AI 合成的加持下規模持續上升,Data Infra 需要能夠靈活地橫向擴充套件以支援不斷增長的需求;
• 不同模態的資料具有不同的特徵和處理需求。例如文字資料需要全文索引,而影像資料則可能需要特徵向量索引,而且為 AI 設計的索引和傳統搜尋的索引會有所不同;
• AI 應用對資料儲存的即時性會提出新要求,即時語音互動和影像檢索都會對資料庫的讀取查詢效能提出極高的要求;
第二個問題是資料棧中的工作流還未確定,RAG 作為主流方案還在快速演進的階段:
• RAG 資料棧涉及資料預處理、向量化、索引、檢索和生成等多個環節,每個環節都有多種技術選擇:

Source: LanceDB Data+AI Summit Talk
• RAG 中的 embedding model, retriever, reranker 等模型都最好用行業資料進行 fine-tune 達到最佳效果,使工作流高度複雜和模組化;
• 標準化和可復現性低,由於前面提到的長鏈條、高度定製化,這導致 RAG 本身難以端到端產品化
下一代資料產品的使命是要解決這些問題,LanceDB 也是其中的重要一員。
02.
About LanceDB
LanceDB 是一個為多模態資料設計的資料庫,目前的客戶包括 MidJourney、Character AI、Airtable 等。他們開創了獨特的開源資料格式 Lance,專門為解決 Parquet 這樣傳統資料格式面對多模態資料的無力。基於 Lance 格式構建的多模態向量資料庫 LanceDB 能夠以更低的成本、更快的速度索引數十億向量和 PB 級別的文字、影像和影片資料。
LanceDB 的兩位聯合創始人之一 Chang She 是 Pandas 的作者之一,Pandas 是最受歡迎的Python 資料科學庫,被全球1000萬資料科學家所使用,每月下載量高達1.7億次。Pandas 就像是資料科學家的 Excel,是資料科學家處理資料的必備工具。Lei Xu 則是自動駕駛公司 Cruise 的資料基礎設施的核心成員,有著豐富的多模態資料基建經驗。LanceDB 最近完成了由 CRV 領投的種子輪融資。
在剛剛結束的 Databricks Summit 中,Chang She 提出了 AI 資料庫時代的 CAP theorem,即傳統資料庫面對 AI 任務時的不可能三角:
• 隨機讀取(random access),可以直接訪問任意位置或記錄的能力,例如在訓練模型時的 data shuffling;
• 大塊資料(large blobs),高效地儲存和檢索大規模資料,例如在訓練模型時的 data distribution;
• 快速掃描(fast scans),高效的全表或大範圍掃描,例如在訓練模型時的 data filtering。
而 LanceDB 的目標是為 AI 應用同時提供以上三種能力。

同樣在這次 Summit 上,LanceDB 團隊也介紹了與 Databricks 產品耦合的 RAG 工作流,LanceDB 和 Databricks 的合作將主要聚焦在 retrieve 這一步上, LanceDB 將作為 data lake 中重要的補充元件,也有機會在 Databricks 生態中拓展使用者。而在下文的訪談中,我們也會和 Chang 聊聊如何從這一模組往外拓展。

03.
訪談正文
多模態下的資料庫機會
海外獨角獸:請先簡單介紹下 LanceDB 吧。
Chang She:LanceDB 是為多模態 AI 設計的新一代資料庫。在新的 AI 時代,企業需要處理海量的非結構化資料,包括向量嵌入(embedding)、影像和影片等。與之相對應的任務(workload),比如向量搜尋、分散式訓練、模型推理等,都會和傳統的鍵值對查詢不同。因此,傳統的資料基礎設施已經不能有效管理這些新的資料和 workload 。LanceDB 的核心理念和產品定位就是為這個 AI 時代打造全新的資料基礎設施。
LanceDB 與 Databricks 等傳統資料湖的區別在於底層資料格式。傳統的資料湖大多基於 Parquet 格式或原始影像檔案儲存,但對於需要處理多模態資料的 AI workload 來說其實並不是理想的解決方案,因為需要維護更多的資料副本,並且還會遇到各種效能瓶頸。所以基於 Parquet 這種方式其實可擴充套件性比較差、成本很高、使用也更加複雜。也因此,我們正在重新設計一種全新的資料格式和系統來滿足 AI,尤其是多模態場景下的資料需求。
💡
Parquet 是一種面向列儲存的資料格式,專為大資料場景下的查詢和分析而最佳化設計。與基於行儲存的格式相比,Parquet的列式儲存特性可以使用更高效的壓縮和編碼方案,大幅減少I/O,在分析型工作負載上實現更快的效能。
鍵值對(Key-Value)查詢是一種簡單而高效的資料檢索方式。每條記錄都由一個唯一的鍵(Key)和對應的值(Value)組成。查詢時只需提供鍵,資料庫就能快速定位並返回相關聯的值,非常適合處理海量資料下的點查詢操作。
以上兩種方式都並非為非結構化、多模態資料的場景設計,相容性不好。
如果某個團隊的日常工作中存在大量的搜尋和檢索的需求,或者因為模型訓練(包括 LLM、VLM 等在內)要處理規模龐大的資料,這些任務場景就都很適合 LanceDB,因為 LanceDB 在高效能和資料處理規模這兩方面都處於行業領先位置。此外,我們也是市面上唯一能同一組資料上執行從檢索到模型訓練的各種關鍵 AI workload 的產品,而且它簡單易用,和技術生態系統有最廣泛的整合。
總之,不管是搭建 AI 應用,還是訓練新的多模態模型,都可以藉助 LanceDB 來把專案的可拓展性提升 10 倍,同時成本降低一個數量級,在這個過程中,LanceDB 會幫助開發者實現更高的生產力、更快的迭代速度。
海外獨角獸:你一直在資料行業探索,除了創立 LanceDB, 也是資料行業中大家都很熟悉的 Python Pandas 庫的核心作者。你對 data Infra 的興趣來自於哪裡?
Chang She:我一直都對資料行業很感興趣。我最早在對沖基金工作,作為量化分析師要承擔很多資料工程的工作,當時我就意識到這個工作過程中沒有好的工具可以使用,所以我們都會先寫 Java 程式碼來讀取 CSV 檔案,再用 VB 指令碼來做資料分析和處理。
當時我的一位同事 Wes 也遇到了和我一樣的問題,於是他就寫了一個閉源庫,也就是今天的 Pandas。我用過 Pandas 之後相當喜歡這個專案,於是就把它推廣到了整個團隊,後來 Pandas 在我們整個公司都很受歡迎。Pandas 開源後也是在金融領域最先流行起來的,因為它對時間序列、統計等的支援特別好。
2012 年前後,隨著相關學術研究和 網際網路(web-scale)資料激增,資料科學家成為了新興的熱門職位。突然之間,對資料分析的需求猛增了 100 倍,Pandas 也因此獲得了更多人的關注、可以說是人氣飆升。
與此同時,Wes 和我也開始思考新的問題,比如那些不會寫 Python 的資料分析師要怎麼辦?於是我們創辦了 DataPad 做資料分析視覺化,DataPad 後來被 Cloudera 收購了。
再之後我進入到機器學習領域、並加入了 Tubi。在機器學習領域,表格資料(tabular data)和非結構化資料之間存在一個相當明顯的鴻溝。對於表格資料,有諸如 Python、 Spark 和 Pandas 這樣很高質量的工具可以使用,但對於影片和影像這類資料處理工作就不太理想了。
因此, 2022年,我和我們的 co-founder 們決定創辦 LanceDB,為非結構化資料打造新的儲存層。這就是我從量化分析師到 LanceDB 以來的整個過程。
海外獨角獸:你之前的經歷中很多是在為結構化表格資料(tabular data)打造工具,但在非結構化資料我們還沒有見到很多好的工具。這背後是不是源於結構化資料分析、機器學習、LLM,對資料的需求是三階段演進的過程?
Chang She:我們可以先回顧一下歷史上的重大技術趨勢。90 年代,企業開始數字化、大規模使用資料,這讓 Oracle 這樣的資料庫公司作為 infra 層興起。
進入 2000 年代,網際網路時代到來,先前的技術變得不夠用了。隨著 web-scale 資料的出現,從表格資料到 JSON 資料的轉變使 MongoDB 興起。
後來就進入到了雲計算時代,出現了 Snowflake 和雲資料倉庫。差不多同一時期,機器學習也開始流行,所以不再只是單一的資料倉庫,我們需要一種能夠儲存和連線不同工作負載的 infra,這就包括從簡單的執行 SQL 查詢,到深度學習訓練、模型工作等複雜的資料管道,這也讓 Databricks 成為了這個時代重要的 infra 公司。
而眼下,我認為 LLM 代表了一個新時代,尤其是多模態 AI 的出現。LLM 時代的特點是資料型別不同、資料規模遠遠更大、工作流程也大不相同。
另外還需要強調的是,目前還沒有 killer app 出現。因為 AI 領域暫時還沒出現類似 LAMP stack 這種標準架構作為基礎設施,所以我也看到有很多 data infra 公司正嘗試定義 AI 時代的 LAMP stack ,但如果回顧之前的幾次技術浪潮,就會發現每一代技術對應的 killer app 是先出現的,在這之後人們才去構建相應的 infra。比如,網際網路普及之後才有了 LAMP stack 。
對於現在的 AI 同理,我們仍處於這個技術時代的早期,人們還在尋找 AI 時代的 killer app 是什麼。所以我認為現在下結論說 AI 的 LAMP stack 會是什麼樣子會為時過早。
💡
LAMP stack: Linux, Apache, MySQL 和 PHP 的縮寫,是一組構建網路應用最常用的開源軟體,代表網際網路時代標準的基礎設施。1998 年 LAMP 被首次提出。
我們可以錨定一些不變數。比如我們都知道模型和資料都是必不可少的,如果我們能讓資料儲存和操作變得高效和可擴充套件,這件事是不會隨時間消失的。而越往中間層,middleware infra 的不確定性就越大。所以我認為,透過緊貼模型和資料這兩個不變數,我們可以構建一些在本質上經得起未來考驗的東西。
海外獨角獸:2022 年你創辦 LanceDB 時 ChatGPT 還沒有推出,當時你看到的行業機會是什麼?整個 data stack 中除了 RAG 還有很多方向,為什麼最終選擇了現在的方向?
Chang She:在 ChatGPT 釋出之前,我們就已經看到多模態資料很難管理了。尤其是對於自動駕駛廠商或者其他需要處理大規模 CV 資料的公司來說,他們可能會有資料的很多副本,一份用於訓練,一份用於推理,還有一份用於資料發現和探索。
我的聯合創始人來自 Cruise,他在 Cruise 參與搭建過一個大規模的機器學習平臺。對於 Cruise 的工程師來說,要完成一個迭代週期,他們需要學習四種不同的程式語言、七種不同的系統,並管理大約三份不同的資料副本。而且他們必須“相信”整個 pipeline 沒有出錯,因此資料管理問題是我們一開始想要解決的問題。
到後來,因為我們是開源的,我們透過社群發現 RAG 和向量檢索的需求很多,很多使用者發現用 Lance 搭建的系統在 RAG 相關用例中很方便。
到了今年我們更明確的是,RAG 在生產環境中對產出質量的要求是很高的。這意味著除了向量搜尋,使用者還需要其他檢索方法,比如全文搜尋、SQL 過濾、借鑑推薦系統中的 reranking 技術,這需要更高的複雜度。此外,透過使用者反饋,使用者可以對 embedding 模型和 reranking 模型進行微調,從而用少量資料和成本獲得更準確的檢索結果,而不是預訓練一個新的大型 embedding 模型。這一系列實現都比較複雜。
我們的早期使用者們發現,要實現一個好用的檢索需要用到很多個系統:一個用於全文檢索,一個向量資料庫,一個用於儲存實際資料的系統,一些自定義程式碼進行 reranking,並且可能還需要資料的其他資料副本用於 fine-tuning,以及自定義工作流等等。
LanceDB 就是想解決這個問題,這些都是人們絕對需要做的事情,但讓我們將其從五個系統簡化成一個系統,從而降低管理成本。
也因此,LanceDB 的 Lance 資料格式會是我們的獨特優勢之一,Lance 格式支援在一張表中儲存原始資料、元資料、向量和用於 fine-tune 的使用者反饋。它的自動版本控制確保了可複製性,並提供各種檢索方法。使用者可以在一個地方執行 SQL 查詢、全文搜尋、向量搜尋以及 reranking 和混合搜尋功能。這大大簡化了生產所需的複雜度。
海外獨角獸:所以當市場還沒有討論 RAG 的時候,你們實際上已經在提供相關需求的解決方案了?
Chang She:是的,我們當時沒有做完整的 RAG,但已經在做檢索。當時的自動駕駛行業已經發展了十年,容易解決的問題都解決了,剩下的都是長尾問題。而每天有大量資料進來,但可能 target 長尾問題的只有 0.01%,挑戰在於怎麼把這 0.01% 的 corner case 找出來。於是我們為此增加了許多不同的 retrieval 和 indexing 的能力,而retrival 加上向量 indexing 本質上就是一個向量搜尋系統了。
LanceDB 的第一批客戶也都是和自動駕駛相關的團隊,當時還有一些車廠以及製造飛機的公司都在嘗試做自動駕駛。另外還有一些規模比較小的公司,這些公司有大量的圖片或 PDF 檔案進行資訊提取和實體提取的需求。
海外獨角獸:今天 LLM 已經完全興起了,這件事對於你們之前看到的機會帶來了哪些變化?
Chang She:越來越多的公司開始對更高質量的搜尋能力提出需求。尤其是去年,推薦系統、電子商務和其他機器學習密集型行業的需求就出現了爆發式增長,人們認識到需要 embedding、向量搜尋和資料管理,至少是對於文字資料而言。
今年則更多關於多模態。現在多模態已經是一個共識趨勢了,並且他們正在想辦法輸入影像和影片。多模態的發展讓資料規模的增長將比傳統 AI 快得多。可能在四年前,只有 Google 或者 Meta 這樣的公司的資料規模是在 PB 量級,但現在,我們客戶中的一個影片領域的初創公司的資料規模就超過了 10PB 。
傳統資料 infra 的成本結構、效率和效能都無法應對這種新的規模,對於訓練或大量定製模型的公司而言存在很大的痛點,急需一種更有效的解決方案來管理如此大量的資料。
海外獨角獸:LLM 時代中最流行的使用場景和 workload 是什麼?
Chang She:現在每個行業都在嘗試用好 AI 能力,而且它們大多都需要 RAG 或語義搜尋能力,這意味著我們的使用者和客戶群體大大拓寬了。同時 AI-native 公司需要預訓練自己的大模型,這與傳統工作負載不同,他們現在必須管理比以前更多的資料,甚至比之前自動駕駛的工作負載所處理的資料量還要多。這些使用場景和工作負載也非常適合 LanceDB 的優勢。
海外獨角獸:多模態對 RAG 帶來了哪些影響?
Chang She:這個問題很有意思。現在多模態 RAG 也在成為一種趨勢,多模態的模型層和應用層也在發生很大變化。傳統方法中每種模態最終都會被對映到語言,但目前有很多研究繞過這種對映,透過建立不同模態之間更加原生的連線來實現更低的延遲和更復雜的用例。所以我認為 RAG 在多模態的語境下也會發生變化。
但總的來說,就像人有五感一樣,AI 也在朝著這個方向發展,在不久的將來,我們將擁有通用的輸入和輸出能力。對於 RAG 來說,prompt 和檢索的上下文也會是多模態的。在如何指令模型返回文字、音訊、影片以及這幾種模態的混合方面,會變得更加複雜,這意味著應用層會變得更厚,同時這些資料的管理也將成為一個相當有挑戰的問題。
Lance
海外獨角獸:你在前面提到資料格式 Lance 會是 LanceDB 的重要優勢。從歷史上看,一種新的資料格式要成為行業標準,需要滿足哪些條件?你認為 Lance 要做好這件事會面臨哪些挑戰?
Chang She:我們是這樣看待這個問題的:任何想成為行業標準的技術,都必須是開源的,且需要能夠很好地與生態系統中的其他工具整合。

具體有兩種方法:一種是,如果一個公司在生態系統中有足夠的影響力和資源,就有機會和能力來自己定義一套標準,並且隨著時間的推移,這個標準可能會被廣泛接受。
但對於 Lance 來說,目前我們的 use case 其實還沒有特別清晰,所以我們採取了另外一種方式,我們想以一種對各類 use case 都非常有價值的方式來做這件事,希望透過為社群提供巨大的價值,讓它成為行業應用標準(de facto)。
開源資料格式的使用者增長曲線會非常不同,一部分原因是 Apache Arrow 的流行。
Apache Arrow 出現之前,如果有人建立了一種新的資料格式,首先必須與市面上的工具進行一對一的整合,比如 Pandas、Polars、Spark 和 Snowflake。而 Arrow 作為記憶體格式標準,意味著所有這些系統都已經與 Arrow 實現了整合。
💡
Apache Arrow 是一個跨語言的記憶體列式資料格式標準,旨在提高大資料系統之間的互操作性和效能。Arrow 提供了標準化的記憶體佈局和計算引擎,使得不同的工具和庫能夠高效地共享和處理資料,而無需序列化開銷。
而 Lance 作為一種非磁碟格式,正是使用 Arrow 的標準型別系統和記憶體格式,Arrow 是我們的主介面。
💡
非磁碟格式是一種資料儲存方式,資料儲存在記憶體或快取記憶體等非磁碟介質中,而不是直接儲存在磁碟上。這種格式專為需要高效能資料訪問和處理的場景而設計,如即時分析和機器學習。與磁碟儲存相比,非磁碟格式具有訪問速度快、延遲低等優勢,但容量受限於記憶體大小。通常,非磁碟格式與磁碟儲存結合使用,以在高效能和大容量之間取得平衡。
因此,對我們使用者來說,他們甚至不需要考慮目前正在使用的是什麼磁碟格式,就可以很低成本、快速實現效能和可拓展性的提升。比如,如果他們之前是用 Parquet 格式來儲存資料,那麼只需兩行程式碼就可以轉換為 Lance 格式。如果用的是 Polars 或 Spark,也不需要做太多程式碼更改。
海外獨角獸:在今天要讓一個新的資料格式成為行業標準,會比之前更容易還是更難?
Chang She:這件事上有不同的觀點。有一些在資料行業經驗很豐富的人會認為:我們可以透過修改 Parquet v3 這一格式來滿足新的用例。
而我的觀點是,如果所有東西都將與 Arrow 這一標準整合,是否存在一個單一的資料格式標準就無關緊要了。不同的用例可能會有不同的標準。也許三到五年後,一個數據湖中會部分是 Parquet,部分是 Lance,也許還有部分是像 CSV 這樣的其他格式。但這對終端使用者來說並不重要,你只需為具體用例選擇最優的儲存格式。
海外獨角獸:和 Parquet 相比,Lance 在快速隨機訪問上有很強的優勢,這是如何實現的?可以透過修改 Parquet 來實現這一點嗎?
Chang She:我傾向於這樣思考 Lance 的差異化。今天 AI 領域對資料有三個要求。首先,人們仍然需要快速掃描(fast scans)用於分析、查詢、過濾等;其實是隨機訪問(random access),即搜尋和檢索需要快速隨機查詢;第三點是需要能夠處理多模態資料,並高效處理大塊資料(large blobs)。
這裡其實存在一個 AI 資料的 CAP theorem,即其他系統或許擅長上面一點或者兩點要求,但還沒有一個能三者兼顧。Lance 的目標就是解決這三個問題。現階段除了 Lance 之外,還沒有其他系統能夠同時很好地滿足這三個方面需求。

我們一開始也嘗試在 Parquet 上面來構建,也考慮過修改 Parquet,但考慮到 Arrow 和生態系統的變化,從頭設計一個新的資料格式可能更有價值。
如果你現在依然採用 Parquet,並在旁邊想新增偏移量或索引(這是很多人的做法),索引可以快速定位到正確的行。但是由於 Parquet 固有的侷限性,獲取特定一行記錄會很慢,因為你需要讀取整個塊或整個行組才能獲得所需的一行資料。這是 Parquet 難以克服的根本問題。
快速隨機訪問之所以重要,是因為只有實現這一點,index 才能發揮真正價值。Lance 不僅提供了一種資料格式,還內建了索引格式,從而為各種用例(不僅限於向量搜尋)提供更優的查詢效能。
海外獨角獸:在 RAG 上, Lance 資料格式有什麼優勢?和 Parquet 比有什麼不同?
Chang She:在 LanceDB 的一個 row 中,我們可以同時儲存影像、文字、音訊、影片,以及與原始資料不同部分對應的任意數量的向量,在此基礎上也能實現任意模態跨資料檢索,並使用任意模態的方法處理檢索到的資料,這是 Parquet 無法高效實現的。大多數向量資料庫也不允許每行超過一個向量,因為它們是為提供 API 服務而設計的,而不是作為表格。

海外獨角獸:傳統資料庫的資料遷移成本很高。向量資料庫的資料遷移成本是什麼樣的?舉個例子,因為 embedding model 的切換會讓之前儲存的 embedding 資料失效,所以如果我們 embed 了workspace 的 Notion 頁面並頻繁更新它,我們就需要反覆重新 embed 更新資料。新一代向量資料庫如何面對這個差異?
Chang She:如果只儲存向量,那就沒有任何 gravity,因為表只是一個索引,當你重新 embed 並建立新索引時,舊索引就會被丟棄。資料遷移成本來自於源資料,源資料並不會被改變,確實在實踐中可以改變 embedding 模型,但儲存待 embed 的原始資料(文字、影像等)的那個系統是難以遷移的。
關於 Lance,我們沒有討論到的一個有趣方面是它對模式演化(schema evolution)的支援。在建立新的 embedding 時,你不需要複製源資料。而有了 Lance,你可以在不復制源資料的情況下,刪除舊的 embedding 列並新增一個新的,這在 Parquet 中是做不到的。此外,Lance 支援時間回溯,讓你可以回溯到之前的 embedding 狀態,這也有助於除錯。
Lance 有一個元資料(metadata)層,不同的列和模式部分可以存在於不同的資料檔案中。然後不同的版本會寫出指示該版本相關檔案、模式及 blob 的元資料。透過這種方式,就可以在不重寫資料的情況下進行模式演化。
海外獨角獸:現在行業中也有很多關於混合搜尋的討論,即把關鍵詞搜尋和語義向量搜尋結合。長期來看,向量搜尋會完全取代關鍵詞搜尋嗎?還是二者持續共存?
Chang She:我認為它們更可能長期共存。有些資料集和用例中,關鍵詞搜尋效果更好,而另一些則更適合向量搜尋。有效結合這兩者也是一個有趣的領域,比如說見證式搜尋(testimonial search)等。我認為在未來,各種應用都將擁有語義搜尋能力,而且更可能是這兩種搜尋方式的結合。
即使在 RAG 之外,AI 也正在引發巨大的搜尋革命。上一代 Web 應用都有響應關鍵詞搜尋的搜尋框,人們不得不接受它的搜尋質量,因為那是我們當時所能獲得的最佳選擇。現在,有了更好的搜尋能力和 RAG,人們看到那種陳舊的關鍵詞搜尋框將會覺得效果很糟糕。所以我認為很快就會進入一個新時代,如果你的應用不支援語義搜尋功能,使用者體驗就會變得糟糕。因為自然語言搜尋、對話式互動模式由於 ChatGPT 的興起變得更加核心,搜尋本身也已成為使用者體驗的更核心部分。這種轉變可能沒有受到太多關注,因為聽起來並不那麼 sexy,但它對行業來說也是有很大影響的。

海外獨角獸:如果沒有 Lance 這個資料格式,像 Chroma 和 Weaviate 這樣的其他向量資料庫在處理這個問題上是不是難度會大很多?
Chang She:它們並沒有表模式(schema)的概念。在它們看來,一切更像是一個集合,集合有一個 record ID,可以有多個向量或者只有一個向量,外加元資料形成類似 JSON 的資料塊。所以不存在所謂的模式演化和版本控制,在這種情況下,你只需要顯式地進行資料快照,但這時你必須複製資料。
海外獨角獸:我們交流的企業客戶提到,從 AWS S3 bucket 取數之後,企業自己沒有使用 LanceDB 類的產品,而是透過 ETL 也可以將其用於訓練。在這個場景如果使用 LanceDB 有什麼優勢?
Chang She:對於分散式訓練,你需要進行過濾、分發和隨機化等預處理。現有格式在隨機化和資料混洗(shuffling)方面效果非常糟糕。此外,你還需要一個大規模的引擎來處理過濾和其他任務。因此,直接從物件儲存流式傳輸資料會使 ETL 變得複雜,並可能嚴重影響 GPU 利用率。由於 GPU 是最寶貴的資源,最大化它們的效率至關重要。這就是 LanceDB 的獨特價值所在,它可以確保高效的資料處理,讓 GPU 得到充分利用,並在分散式訓練中表現非常出色。
海外獨角獸:在你們的產品路線圖上,你們提到將與 Spark 和 Ray 計算引擎相容。你對這些計算引擎是怎麼看的,未來計劃如何?LanceDB 和 Databricks 、 Snowflake 之間的關係是什麼樣的?
Chang She:我們希望為多模態資料培養一個蓬勃的開源生態系統。與任意計算引擎實現好的整合對我們來說很重要。我們已經發布了對 Ray 的整合,它現在已經正式成為 Ray 的一部分。我們正在推進與 Spark 的整合,與 Trino/Presto 的整合也在同步進行。這有點回到了資料湖的概念,即客戶將資料以 Lance 格式儲存資料在物件儲存中,並且應該能夠使用任何處理系統對其進行處理,以滿足不同目的。
我們會是他們的合作伙伴。例如,我們已經與 Spark 整合,並透過 Apache Arrow,使 Snowflake 能夠讀寫 Lance 資料。可以設想,如果 Snowflake 加入一個 pushdown,他們就可以允許客戶連線到 LanceDB,並使用 Snowflake SQL 進行向量搜尋,而 LanceDB 實際上在處理這些底層操作。
海外獨角獸:現在針對向量資料庫的競爭非常激烈,你認為處理文字資料與其他模態資料之間的區別是什麼?
Chang She:文字確實與其他模態不太一樣,但需要注意的是,每個模態都有自己的特殊需求,文字與影像間的區別可能並不比影像與影片間的差異大很多。對於文字來說,問題不一定在於原始資料本身更難操作,而是在於資料的規模,一家專注文字的模型公司可能需要爬取整個網際網路並攝取能獲得的一切資訊,全網的影片資料規模則要大很多。規模問題也是現有資料 infra 面臨的一個大挑戰。
海外獨角獸:現在很多公司都面向文字資料做向量資料庫,你們會不會想佔住多模態資料處理的心智?LanceDB 的技術優勢怎麼能夠體現在多模態的處理上?
Chang She:是,也不是。因為多模態資料的規模更大,所以優勢更加明顯。所以從這個意義上說,是的我們的確希望抓住多模態資料處理這個定位。
但如果你看現在的向量資料庫,它們也無法處理大規模的文字資料,因為它們無法有效儲存長文字。大多數向量資料庫是專門為語義搜尋而設計的,由向量 ID、元資料的 blob 等構成,這個 blob 適用於 MongoDB 式的儲存和元資料過濾,而不是用於長文字的有效儲存、檢索和管理。對於短文字比如單個句子,差別不大,但如果要檢索的是整個文件的長度,也會很快遇到規模的問題。
海外獨角獸:我們注意到 Elasticsearch 和 PostgreSQL 這些公司也推出了向量搜尋相關的產品,作為一個 start-up,在下一代資料基礎設施中,哪種技術會為 LanceDB 創造更多競爭壁壘?
Chang She:從長遠來看,向量搜尋更可能成為一個更獨立、完整的產品中的一部分,而不只是增量式地加入現有系統作為功能擴充套件。
對於那些正在新增向量搜尋功能的現有資料庫,由於架構已經確定,它們只是添加了一種新的索引能力。但這種索引與 B-tree 或 bitmap 索引有很大不同。這對於像 PostgreSQL 這樣的產品來說,在工作負載特徵等方面都會產生很大的影響。
我們聽到很多使用者表示,他們最初使用 PostgreSQL,但一旦資料超過了1000萬或2000萬行,延遲就會變得非常糟糕。如果他們稍微修改 SQL 查詢的構建方式,查詢就不再使用索引進行預過濾。所以新增這種新功能會帶來很多問題,對於許多其他現有產品也是如此。
我認為,一個更完整產品的未來發展路徑將是為 AI 和管理 AI 資料而設計的,而不僅僅是增量式地新增向量索引。這並不是說 PostgreSQL 的向量索引不好。在很多場景下,如果你的資料已經在 PostgreSQL 裡面了,並且資料規模並不大的話最高優先順序只是儘快推出產品,那麼它就是一個不錯的選擇。我非常欣賞 PostgreSQL,但在達到一定規模後,你還是需要不同的解決方案。
海外獨角獸:所以 LanceDB 既有使用多模態資料的客戶,也有隻使用文字模態的客戶?
Chang She:是的,我們目前正在與各個模態領域的領先公司合作。例如,我們正在與 MidJourney 合作處理影像,與 Character AI 合作處理文字。我們也正在與一家暫時不能公開的大型影片公司合作。在所有這些模態中,共同的特點是龐大的資料規模、複雜的檢索與資料管理需求,以及需要與分散式訓練無縫整合。
海外獨角獸:這會回到我們之前提到的 Lance 資料格式的優勢嗎?它已經在為多模態 RAG 或未來的技術棧做準備了嗎?以及與 Parquet 相比,在該用例上有何不同?
Chang She:在 LanceDB 的一個 row 中,你可以儲存影像、文字、音訊、影片,以及與原始資料不同部分對應的任意數量的向量,這允許你能夠使用任意模態跨資料檢索,並使用任意模態的方法處理檢索到的資料,這是 Parquet 無法有效實現的。大多數向量資料庫也不允許每行超過一個向量,因為它們是為提供 API 服務而設計的,而不是作為表格。
海外獨角獸:LanceDB 的客戶是如何使用產品的?可以分享一些有趣的用例嗎?
Chang She:我們在開源社群裡看到很多使用者用 LanceDB 來處理各種任務的 RAG,比如,有人將 LanceDB 用於開源的程式碼生成工具,也有使用者用 Lance 開實現生成 SQL 語句、自動化資料分析、常規 chatbot 以及 chat with doc。
如果將我們所提供的不同語言包專案計算在內,我們目前每月的收入已經超過了 100 萬美元。
我們也和諮詢公司交流過,他們會把 LanceDB 用在財務報告分析上,透過提取出關鍵資訊和資料,來讓系統自動化回答例如“為什麼這家上市公司的營業利潤會上升”或“運營支出為什麼突然增加”等等問題。
通常情況下,他們會發現由於能夠在向量與被提取的原始資料旁邊儲存更多資料,因此會更容易對原始資料進行擴充套件以用於提取,並將其提供給模型進行總結,從而獲得更準確、更豐富的 RAG 結果。我們還可以簡化混合搜尋和全文搜尋,從而為那些需求超出基本向量搜尋的使用者提供更高質量的檢索。
此外,大型企業也使用 LanceDB 來儲存和管理他們所有的訓練資料,用於分散式模型訓練,比如在自動駕駛行業中進行資料探勘、場景提取、模型訓練。現在多模態 AI 的文字、影像、影片模型都使用相同的 pipeline 來做模型訓練中的資料處理。
海外獨角獸:其實很多行業存在一個普遍性的需求,即如何從未數字化的非結構化資料中提取資料,比如 PDF 檔案、收據等等,但傳統的 OCR 等效果並不理想,多模態會對這個場景帶來顛覆性變化嗎?這件事對於 LanceDB 是什麼樣的機會?
Chang She: LanceDB 是這些應用場景下的基礎設施。在我看來,圍繞不同垂直領域和高價值資料來源的通用資料進行資料提取和分析會出現很多解決方案,我不太認為某一家公司可以同時處理法律、醫療保健和政府合同等不同領域的需求,最是由不同的公司來做。
我們的目標是為開發這些應用的公司提供基礎設施,建立易於使用的工具和可組合的構建塊模組。與其讓這些公司編寫複雜的管道來完成所有這些工作,不如只需編寫一個 SQL 查詢,就能從 PDF 中提取並使用資訊,執行該查詢即可在它們的計算叢集中自動分配作業。這是我們希望在基礎設施層面實現的,就是要為構建此類工具的公司提供超級簡單的體驗。
海外獨角獸:LLM 時代的資料棧中,包括資料儲存、模型訓練、推理部署等,以及離線&線上用例中,LanceDB 能在哪個環節捕獲到最大的價值?
Chang She:我不認為這些是彼此割裂的部分。有效儲存大規模多模態資料是我們的核心,但儲存本身沒有價值。它必須針對特定用例型別進行最佳化,比如說從分散式訓練的用途而言,儲存的最佳化非常重要。對於那些大規模且複雜的需求,我們通常是唯一的解決方案。儲存對於部署也是同樣有價值的。
關於離線和線上用例,其他資料格式和過去的資料基礎設施通常只適用於其中一種,但 LanceDB 是唯一能在兩方面都表現出色的,我認為它對訓練和檢索是同等重要的。當然,在檢索方面也有其他選擇,但在這兩個領域我們都有非常獨特的優勢,特別是針對處理多模態資料的公司。
產品路線圖
海外獨角獸:你計劃如何進行市場推廣和商業化運作?是從小型企業、中型企業和開發者開始,然後再瞄準大型企業客戶,還是已經在專注於大客戶了?
Chang She:我們的開源社群已經擁有相當大的規模,一些重要的科技公司和領先的生成式 AI 公司也都在與我們合作,所以這是一種面向開發者社群和大客戶的雙峰策略。最終,更多大型的的非技術企業可能會在採用多模態 AI 並將其進入生產階段時,可能會稍晚一些加入我們的客戶群體,但到那時我們將已經為他們做好充分準備。
海外獨角獸:LanceDB 對於開源專案的商業化有什麼想法?
Chang She:LanceDB 的商業化不會是對資料格式本身進行商業化,而是關於構建資料管理層、工作流層和向量資料庫層。這是針對真正擁有大規模資料的大型企業,無論是在推理服務(serving)還是在模型構建中。我們的企業產品旨在提高生產力,減少維護負擔,並實現擴充套件,而無需團隊在開源解決方案之上進行大量管理和構建工作。
海外獨角獸:你一直在強調 LanceDB 是唯一一個能夠完全滿足客戶需求的解決方案,為什麼只有 LanceDB 能做到這一點?
Chang She:要建立一個真正適合 AI 的資料庫系統,需要對資料庫和機器學習有深入的專業知識。我們團隊的優勢是在這個交叉領域積累了大量經驗。我們處理的資料是多模態的,我們在處理非結構化資料和結構化資料上都經驗豐富;查詢和 workload 也是多模態的,包括 OLAP、檢索和訓練;上下文也可以是多模態的,涵蓋離線資料集和線上服務用例。
我們團隊在重要開源資料和機器學習專案中的經驗是獨一無二的。我們是 Pandas、 HDFS、Apache Arrow、Delta 和 Polars 等重要專案的核心貢獻者。這些過往經歷讓我們在資料庫和機器學習的交叉點上站在獨特的位置上。
海外獨角獸:你認為未來 1-3 年中,Lance 的發展將會經歷哪些哪些重要里程碑?
Chang She:我們的目標是成為處理多模態資料的行業標準,成為各種任務的最佳選擇。在未來一到三年內,我們將看到建立在 LanceDB 之上的更完整的多模態 AI 資料湖產品。這將為整個資料處理 pipeline 提供更多的價值。企業的心智將會是:我想搭建AI應用,我有一些資料,那麼我可以使用 LanceDB 來儲存這些資料。只需一點工作,他們就可以使用我們的工具完成生產級 AI pipeline。
如今,正在構建 AI 的公司僱傭專家,經歷大量的試錯,才能擁有在生產中真正良好執行的系統。我們未來一到三年的目標是,讓客戶無需僱傭一支 OpenAI 級別的團隊,就能在企業內執行一個完整而精密的 AI 應用棧。我認為 AI 的民主化不僅僅是覆蓋到更多公司,還包括減少公司所需的努力。我預測 AI 可以在企業內的各個領域提供價值。目前,大多數團隊僱傭一大批專家,只專注於一個應用。我們希望達到這樣一個狀態:AI 應用非常易於管理和開發,一個數據基礎設施可以支援企業內的多種不同應用,只需很少的維護和運營工作。
海外獨角獸:我們發現基礎模型公司在微調或訓練模型時,常常缺乏使用、整理和準備資料的知識。如果資料儲存在 LanceDB 中,如何為模型微調 選擇和準備資料?
Chang She:這個問題很有意思。6 月底我們會和 Character AI 將就這一主題進行聯合技術講座。我們將討論如何在 LanceDB 中處理數萬億的 token,以及後續工作,比如如何考慮過濾。我喜歡用雕刻來類比,LanceDB 中的資料就像是一團原始材料,Character AI 團隊將討論如何從中選擇合適的資料,把它雕刻成一個鼻子,也就是得到創造出最優模型的成品。這是一個非常吸引人的話題,我們將就此進行討論。
海外獨角獸:模型越來越多由它們所使用的資料所定義,和資料越來越相關。這是否意味著“雕刻”的過程仍然需要一些專業的 know-how?LanceDB 可能提供的是一個很方便的工具,類似於雕刻用的刀,而這可能是你們的下一步,現在還沒有做這個產品,對嗎?
Chang She:是的,提供更高層次的工具還不是當前產品的一部分。但未來模型會 commoditize,對於採用機器學習的企業來說,差異化的因素是他們如何融入自己的專有資料。雖然開源模型還沒有完全跟上,但它們現在已經相當不錯而且進步很快,所以我認為我們很快就會看到模型的 commoditize,然後我們回到一個 data-centric 的世界。企業如何用自己的資料進行微調或預訓練,如何用自己的專有資料定製化應用,這些問題就會變得更加重要。
海外獨角獸:從接下來團隊發展的角度,你們希望什麼樣的人加入?
Chang She:我們團隊正在尋找各個領域的專家,尤其是那些以前曾在資料庫領域工作或構建過資料庫的人。我們團隊遠端工作,正在打造真正全新事物,希望找到高度自驅、好奇,對新挑戰感到興奮的人才。
關鍵詞
向量資料庫
技術
資料庫
索引
問題