日報
專欄
熱點
國際
活動

作為一家超級獨角獸公司,Databricks是基於雲的大資料處理和機器學習平臺,旨在幫助企業更輕鬆地處理大規模資料以及進行智慧決策。Databricks所提供的“資料湖屋”技術結合了資料湖和資料庫的優勢,能有效消除使用者組織內部的資料壁壘,滿足使用者在網際網路資料爆炸性增長的背景下,對結構化、非結構化等多樣化資料即時處理的需求。如今,Databricks已發展為一個更廣泛的“湖倉一體”式的Databricks Marketplace,倍受資料工程師和資料科學家的關注與青睞。(首圖來自圖蟲創意)
文 | 葉子 編輯 | 謝彬彬 <<<<
Part 1 公司簡介
1.1 公司概述
成立於2013年的Databricks是一家美國企業軟體公司,由Ali Ghodsi、Andy Konwinski、Arsalan Tavakoli-Shiraji、Ion Stoica、Matei Zaharia、Patrick Wendell和Reynold Xin 7人聯合創立,其中6人擁有計算機科學博士學位。Databricks的誕生源於加州大學伯克利分校的AMPLab專案。該專案參與了Apache Spark的製作,這是一個基於Scala構建的開源分散式計算框架。Apache Spark表現優異,在2014年創造了資料排序速度的世界紀錄,併為團隊成員之一贏得了當年的最佳計算機科學論文獎。
為了讓更多使用者使用Spark,創始團隊選擇將其開源,於是Databricks應運而生。作為Apache Spark的核心要素,Databrick具有絕對的影響力、理解力和解釋力,這也是其核心競爭力之一。
2016年,微軟和Databricks達成合作。2017年11月,微軟正式宣佈將Databricks作為Azure的第一方服務平臺,這意味著使用者能在Azure門戶中啟動Databricks,Databricks使用者也可以輕鬆訪問Azure上的功能,與所有其他Azure服務進行深度整合,從而構建現代資料分析通道。與微軟的合作是Databricks的里程碑,這幫助其收入從2017年初的不到100萬美元增長到2018年的超過1億美元。
2018年,Databricks釋出了MLflow來管理機器學習專案,一年後又釋出了Delta Lake,二者均獲得了市場認可。2020年6月,Databricks宣佈收購以色列初創公司Redash並基於其技術推出了資料湖屋關鍵開源技術Delta Engine,可在Delta Lake之上分層以提高查詢效能。同年11月,Databricks推出了Databricks SQL(以前稱為SQL Analytics),用於在資料湖上執行商業智慧和分析報告。
2021年,Databricks和谷歌雲建立合作,使使用者能夠在谷歌雲上應用Databricks平臺的功能。透過此次合作,Databricks成為了唯一一個可以在三大雲平臺(谷歌、亞馬遜和微軟)上使用的統一資料平臺。同年10月,Databricks收購了德國無程式碼公司8080Labs,降低了平臺的使用門檻,並在CIDR 2021發表論文首次正式提出了資料湖屋(Lakehouse)的概念。到2022年8月,Databricks的年營收已超過10億美元。
2023年,為了應對OpenAI的ChatGPT, Databricks推出了開源語言模型Dolly。該模型使用更少的引數便可產生與ChatGPT類似的結果,開發人員可以使用它來建立自己的聊天機器人。同時,為了進一步增強公司實力,Databricks先後收購了資料安全公司Okera、人工智慧公司MosaicML以及資料複製公司Arcion。2024年3月,Databricks推出通用大語言模型DBRX,號稱是“目前最強的開源AI”,據稱在各種基準測試中都超越了“市面上所有的開源模型”。
如今,Databricks在世界各地都設有辦事處,客戶遍佈全球,包括荷蘭銀行(ABN AMRO)、康德納仕(condnast)、Regeneron和殼牌(Shell)在內的全球9000多家組織機構。
1.2 融資概況
在剛成立的2013年,Databricks便完成了1390萬美元的A輪融資,由美國私人風險投資公司Andreessen Horowitz領投。2014年,New Enterprise Associates成為Databricks第二家投資機構,3300萬美元的投資使這家初創公司的估值達到了2.5億美元。
2016年12月,Databricks獲得6000萬美元C輪融資,由New Enterprise Associates領投,Andreessen Horowitz參投,該投資被視為有望幫助Databricks完成在資料的組織、計算和交付方面的一次跨躍。2017至2019年間,Andreessen Horowitz又對Databricks進行了3次共計7.9億美元的投資。
2021年2月,Databricks完成了10億美元G輪融資,由Franklin Templeton領投,進一步鞏固了其作為全球最有價值初創公司之一的地位。同年8月,Databricks又完成了16億美元的H輪融資,公司估值被推至380億美元。
截至目前,Databricks共完成了9輪融資,籌集資金42億美元。如今隨著融資放緩,許多處於後期階段的初創公司的估值正在大幅下降,而Databricks在2023年9月I輪融資中的估值達到了430億美元,較2021年融資後估值上升了50億美元。
表1 Databricks融資概況

資料來源:Crunchbase
Part 2 商業模式
2.1 市場定位:統一的資料分析平臺
正如Databricks官網所示的“Your data. Your AI. Your future. Own them all on the new data intelligence platform.”,其業務集中在大資料和人工智慧領域。Databricks致力於提供統一的資料分析平臺,幫助企業加速資料處理、機器學習和人工智慧工作流程,提升資料團隊的效率和創新能力。其平臺結合了資料工程、資料科學和資料團隊協作的功能,以便使用者可以在一個整合的環境中完成資料處理、分析和建模工作。
Databricks目標客戶通常是擁有大量資料並需要先進分析和機器學習能力的大型企業組織。這些客戶通常來自金融、醫療保健、零售和科技等行業,對快速高效地處理和分析大量資料有極為旺盛的需求。在這個過程中,他們可能面臨著一系列技術上、法律上、倫理上的問題,如資料隱私和安全性問題,而這些都可以在Databricks獲得較好的解決辦法。
2.2 主要產品
Data Sharing:資料共享平臺
Databricks和Linux基金會聯合開發了Delta Sharing資料共享平臺,為跨資料、分析和人工智慧的資料共享提供了一個開源方法。客戶可以在高度安全和治理的平臺區域之間共享即時資料,可以在企業內部業務線共享、B2B分享與資料貨幣化等場景中應用。

圖1 Data Sharing使用場景示意
(資料來源:公司官網)
Unity Catalog:統一管理方法
Databricks Unity Catalog為Databricks資料智慧平臺內的資料和人工智慧提供了統一的管理方法。使用Unity Catalog,組織可以在任何雲或平臺上無縫地管理其結構化和非結構化資料、機器學習模型、筆記本、儀表板和檔案。資料科學家、分析師和工程師可以使用Unity Catalog發現、訪問可信資料和人工智慧資產並進行協作,利用人工智慧提高生產力並釋放資料湖屋架構的全部潛力。該功能能夠提高生產力,簡化許可模型,進行人工智慧監控並提高可視性。
Mosaic AI:統一構建工具
Databricks Mosaic AI能夠提供統一的工具來構建、部署和監控人工智慧和機器學習解決方案,包括構建預測模型、最新的GenAI和大型語言模型。基於Databricks資料智慧平臺,Mosaic AI使組織能夠安全且經濟高效地將企業資料整合到AI生命週期中。在保證企業對模型和資料的所有權的同時,提供準確、安全和可控的AI應用程式,並以更低的成本為使用者培訓定製化的大語言模型。
DBRX:通用大語言模型

Delta Lake:構建湖屋架構的儲存框架
Delta Lake是DataBricks公司開源的、用於構建資料湖屋架構的儲存框架,是可以在開放格式之間自動即時轉換的開放格式儲存層,能夠支援Spark、Flink、Hive、PrestoDB、Trino等查詢計算引擎。
資料湖和資料庫、資料倉庫一樣,都是資料儲存的設計模式。區別在於,資料庫和資料倉庫通常採用明確的模式設計,即先定義好資料模型和資料結構,再將資料整合到這個模型中,因此資料庫和資料倉庫更固定、更靜態;而資料湖則更注重資料的採集和儲存,採用更靈活的架構對各種異構的資料來源和資料格式進行處理,因此資料湖更加動態和靈活。資料湖屋結合了兩者的優勢,並且透過打通資料湖和資料倉庫,能有效消除使用者組織內部的資料壁壘。

圖3 資料湖和資料倉庫對比
(資料來源:公開網路)
Data Streaming:資料流
Databricks資料智慧平臺極大地簡化了資料流,在一個平臺上提供即時分析、機器學習和應用程式。Data Streaming能夠幫助使用者使用已知的語言和工具構建資料平臺,透過自動化構建和維護即時資料,簡化開發和操作流程,並透過流的方式批次處理資料,消除資料孤島。
Spark結構化流是實現Databricks資料智慧平臺上資料流的核心技術,為批處理和流處理提供統一的應用程式介面。Databricks是執行Apache Spark工作負載的最佳場所,其託管服務能夠達到99.95%的正常執行率。
MLflow:開源的機器學習平臺
MLflow是一個能夠覆蓋機器學習全流程(從資料準備到模型訓練到最終部署)的平臺,旨在簡化資料科學家構建、測試和部署機器學習模型的複雜過程。MLflow的第一個alpha版本有三個元件,其中“跟蹤”元件(Tracking)支援記錄和查詢實驗周圍的資料,如評估指標和引數;“專案”元件(Projects)提供了可重複執行的簡單包裝格式;“模型”元件(Models)提供了管理和部署模型的工具。
2.3 盈利模式
與典型的開源商業模式有所不同,Databricks是一家站在“雲巨頭”肩膀上的公司,其盈利模式依託獨特的SaaS開源模式進行。
Databricks本身是開源軟體,透過提供附加功能進行收費,包括在開發、軟體執行、運營和託管等方面。SaaS開源的盈利模式,支援客戶在本地開源平臺下載免費的基礎軟體,同時也可以下載開源公司打造的其他付費版本。
付費模式方面,Databricks根據客戶每秒消耗的計算資源量收費。為此,其使用了一種獨創的DBU作為其標準化單位,工作負載消耗的DBU數量取決於多個指標,包括使用的計算資源、處理的資料量、區域、所處的分級定價層以及正在使用的服務型別等。此外,為了吸引使用者,Databricks為使用者提供了14天免費試用期。

圖4 Databricks產品與服務收費標準
(資料來源:公司官網)
Databricks在運營過程中堅持三個原則:雲上全流程、不做資料倉庫、不做定製化。這一舉措使得公司的基礎軟體能夠規模化,使公司人員的單位產出最大化。對於未來發展的計劃,Databricks曾明確表示,公司會一直做SaaS,並且只做SaaS。
另外,SaaS租賃模式也為Databricks的智慧財產權提供了保護。公司最有價值的智慧財產權蘊藏在監控和管理雲端軟體的工具和技術中,而不是在它所贊助的軟體專案中(這些專案是公開的),這樣便避免了洩露的風險。
Part 3 未來發展
3.1 市場趨勢:行業發展迅速
根據《財富商業洞察》公佈的《2021-2028年大資料分析市場報告》,目前大量初創公司正在爭奪全球大資料分析市場的份額,預計2028年將達到5497.3億美元。根據資本流動趨勢和觀察到的客戶需求,大資料分析市場中最熱門的領域是資料倉庫、資料湖、資料湖倉、資料網格、DataOps和超快速大資料查詢引擎。
隨著網際網路、物聯網和各種感測器的普及,企業獲得的資料來源更加龐大及多樣化,包括結構化資料(如資料庫中的表格資料)、半結構化資料(如XML、JSON等格式)和非結構化資料(如文字、影像、影片等)。一方面,企業需要高性價比的儲存方案。隨著雲端儲存成本下降和網速提升,企業越來越多地選擇將所有資料儲存在中央儲存庫,而不是將不同的資料型別單獨儲存。另一方面,企業希望透過處理這些不同型別的資料,以獲取有價值的資訊。同時許多企業還有即時資料處理的需求,以便及時採取行動。例如,金融領域需要即時監控交易資料和市場波動,製造業需要即時監控裝置狀態和生產過程等。這種即時資料處理需求推動了即時資料處理技術的發展。資料處理需求快速增長,需求推送發展,大資料行業的體量在可預見的未來將會繼續膨脹。
與此同時,基於海量的資料,企業希望利用人工智慧技術來進行更加智慧化的決策支援,如透過分析大資料來預測客戶行為、最佳化供應鏈、改善產品設計等;或者提供個性化的產品和服務,如透過分析使用者的行為和偏好來推薦相關產品、個性化定價、個性化營銷等。這種個性化服務可以提升使用者滿意度和忠誠度。AI的輔助可以幫助企業降本增效,並獲得競爭優勢。
3.2 競爭格局:日益加劇
大資料和人工智慧行業未來預期可觀,競爭也明顯地加劇。Databricks目前的發展主要面臨三類對手的夾擊。
第一類對手是同一行業的其他雲資料平臺。2012年,前Oracle架構師創立的Snowflake是Databricks不可忽視的對手。最初,Snowflake將自己定位為提供資料倉和分析計算工作負載的雲資料平臺,主要面向業務分析師和資料工程師等使用者。同期的Databricks則一直受資料科學家和機器學習工程師的青睞。
但現在二者的界限正在模糊,比如Snowflake釋出了Snowpark for Data Science、事務資料庫以及Python支援功能,希望以此吸引資料科學家。而Databricks則推出了Databricks SQL、Delta Lake功能和Unity Catalog等產品,以滿足資料儲存功能和注重資料安全的客戶。從模式來看,Snowflake是閉源生態,而Databricks是開源的。Databricks的主要產品線都可以免費使用,當客戶需要獲得更高階的功能和支援時,可以選擇相關付費產品。Snowflake提供現成的解決方案,使公司能夠快速開展基本分析,而Databricks提供更好的定製和配置,讓客戶能夠完全控制他們的設定。
2022年底,Snowflake的年收入為21億美元,但增速放緩;而Databricks預計年收入為14億美元,但增速可觀。預計未來兩家的競爭會愈發激烈。
第二類競爭對手是雲廠商。Databricks與雲廠商的專有產品存在競爭。比如在大資料處理的競爭對手方面,AWS有Amazon EMR,Azure有Azure HDInsight,GCP有Dataproc。在業務分析解決方案層面,Amazon QuickSight、Azure的Power BI Embedded以及GCP的Looker等都與Databricks存在競爭關係。
第三類競爭對手為特定領域的解決方案公司。Databricks與特定的資料管理和科學領域解決方案公司也存在競爭。比如Databricks的排程程式類似Apache Airflow,MLflow產品與DataRobot和Alteryx提供相似的服務。
3.3 面臨挑戰:人工智慧版權的爭議
今年來,Databricks被多名作家在舊金山聯邦法院提起集體訴訟,稱該公司在訓練大模型時“未經同意、未經認可、無補償”地複製和借鑑了他們的書籍。
根據起訴書,Databricks被指控分別使用盜版數位電子書庫Books3的資料訓練了公司旗下的大模型MosaicML。“在訓練期間,大模型複製並攝取訓練資料集中的每個文字作品,並從中提取受保護的表達。”原告認為,Databricks收購了MosaicML公司,而MosaicML生產MPT系列大型語言模型中使用了含有盜版內容的資料集進行訓練,因此構成著作權侵權。一同被指控的還有英偉達旗下的大模型NeMo Megatron。
人工智慧工具的繁榮正在考驗版權法的邊界,內容創作者與人工智慧間的版權之爭愈演愈烈。到底是侵犯版權還是合理使用,目前還沒有明確的答案。美媒“Vox”指出,一方面,技術創新的倡導者認為,人工智慧技術充滿了希望,最好不要為了過度保護版權而犧牲人工智慧訓練的效率。另一方面,媒體及內容創作者認為,即使是顛覆行業的科技公司在使用受版權保護的內容時也需要付費。
*本文版權歸“未央網”所有,未經授權禁止轉載。如需開通白名單請在評論留言,轉載時在文首註明來源及作者。
REVIEW





關鍵詞
公司
資料湖
技術
大模型
資料倉庫