2024年度資料庫回顧

↓推薦關注↓

Andy Pavlo 發表於 2025 年 1 月 1 日,譯評:馮若航

就像突然有人一記“腦瓜沖天炮”般直擊(這裡有影片佐證[1]),我又來了!為大家奉上我每年的資料庫大亂鬥總結。沒錯,以前我是在 OtterTune[2] 的部落格上寫這些東西,然而公司已經 Game Over(願它安息)。現在我就跑回自己的教授個人部落格來搞事。

過去這一年裡發生了不少事,從 10 位數的收購案、廠商到處撒野亂改許可證、再到某位超級有錢的資料庫界八旬老漢為了追求新女神、砸錢拉攏大學橄欖球明星等傳奇故事,好不熱鬧。
我答應過我第一任老婆,今年要寫得更專業點。而且聽說有些大學把我每年的總結當作資料庫課的必讀材料。所以今年我得好好斟酌。但話說回來,想想我之前兩年的文風,也就那樣吧。反正咱先試試,看能不能穩住。
往年文章傳送門:
2023 年資料庫回顧[3]2022 年資料庫回顧[4]2021 年資料庫回顧[5]

這是我的資料庫,想怎麼改許可證就怎麼改!

我們身處資料庫的黃金時代。各種優秀的(關係型[6])資料庫數不勝數,適用於各種應用場景。很多軟體都開源了,而背後則是拿了風投的公司在運營。
可風投老爺們可不做慈善,他們要回本,還要裝滿自己的“錢袋子”。於是這些資料庫公司紛紛推出雲上託管服務。但云的存在讓開放原始碼資料庫的商業模式變得相當棘手:系統一旦火了,類似 Amazon 這種雲大廠就會把你的軟體打包成他們自家的雲服務,賺得比你這家真正開發軟體的公司還多。為了防止這種事兒發生,很多資料庫公司開始換更嚴格的許可證,目的就是防止雲廠商抄作業。MongoDB 在 2018 年[7]就已經帶了個頭,改用了 SSPL(Server Side Public License)[8]
過去這一年,許可證的變動就像海上的風暴,翻滾得厲害。而其中最受關注的兩大事件,非 Redis™ 和 Elasticsearch 莫屬。

Redis

Redis Ltd.(公司)正在高速衝刺 IPO。最初他們在 2011 年以 Redis Labs 為名成立,後來在 2021 年改名為 RedisLtd.[9],同時他們還從創始人 Salvatore Sanfilippo[10](他之前拿到了 Redis Labs 的投資)那裡買下了 Redis 商標。過去幾年裡,Redis Ltd. 一直試圖統一 Redis 生態,也一直努力擺脫 “Redis 就是記憶體快取” 的刻板印象,因此他們引入了向量等各種資料模型功能。
2024 年 3 月,Redis Ltd. 宣佈從非常寬鬆的 BSD-3 協議改為雙許可證[11],分別是專有的 Redis Source AvailableLicense[12] 和 MongoDB 的 SSPL。就在他們宣佈這個改動的同一天,他們還宣佈收購了 Speedb[13](這是 RocksDB 的開源分支[14])。
這次 Redis 改許可證引發了迅速的反彈[15]。同一周就冒出了兩個基於 BSD-3 舊程式碼的分支[16]: Valkey[17] 和 Redict[18]。Valkey 出自 Amazon,但 Google 和 Oracle 的工程師隨後也加入了進來。Valkey 專案僅用一週就被 Linux 基金會[19]納入麾下,一大波大廠轉而支援它。與此同時,Redis Ltd. 又在商標上玩花活兒,還把某些開源 Redis 拓展專案的控制權收走[20],弄得大家都覺得公司黑乎乎的。
更有意思的是,到了 2024 年 12 月,Redis 創始人發文[21]表示他又在和 Redis Ltd. 的管理層接觸,準備“重出江湖”把整個 Redis 社群重新團結起來。這場景多少有點像 Bushwick Bill(RIP)、Scarface 和 Willie D 在 2015 年重組[22],老三樣再聚首。
老馮評論:《Redis不開源是開源之恥,更是公有云之恥》,雖然 Redis LTD 這家公司本身整的爛活也不怎麼樣,但更應該批判的是過時的 OSI 理念與貪婪白嫖開源的公有云廠商。

Elasticsearch

Elastic N.V. 是商業公司,背後支援的是大名鼎鼎的文字搜尋資料庫 Elasticsearch。2021 年他們宣佈轉向雙重許可證[23]Elastic License[24] 加上 MongoDB 的 SSPL。原因同樣是 Amazon 上的 Elasticsearch 託管服務越賣越好,雖然人家從 2015 年[25]就上線了。Amazon 一聽這事兒不樂意了,直接搞了個 OpenSearch[26] 分支進行對抗。
到了 2024 年 8 月,Elastic N.V. 又宣佈反悔[27],不再用雙許可證,轉而採用 AGPL[28]。他們寫部落格宣佈這個操作時,還引用了 Kendrick Lamar 的歌(比如 Not Like Us[29])。Amazon 估計不爽被稱為“資料庫圈的 Drake[30]”,隨後在下個月就放了個大招,把 OpenSearch 專案捐給了 Linux 基金會[31]
老馮評論:《ElasticSearch 又重新開源了?》其實原因也很簡單,ES 要是再不改許可證,生態位就會被 Tantivy 換皮和 Grafana 徹底佔領了。

Andy 的看法:

看起來只是個許可證的變動,但背後是資料庫圈的鉅額利益糾紛,而且上面還只是兩個系統的故事!我都還沒提到 Greenplum,他們 默默關停[32] 自己維護了 9 年的開源倉庫,轉為閉源,但沒人注意到,因為估計也沒幾個人現在還真用 Greenplum。另一家在開源轉閉源上翻車的,還有 Altibase[33],那是在 2023 年乾的事。
說實話,我不怎麼喜歡 Redis。它跑得不夠快,所謂事務[34]也比是個冒牌貨,查詢語法像個怪胎。我們在 CMU 做的實驗發現 Dragonfly[35] 的效能資料更優秀(即使只用單核 CPU)。我在資料庫課程裡常拿 Redis 的查詢語言來做負面典型教學(“該怎麼寫才不會這麼難看”[36])。不過,我也理解 Redis Ltd. 被 Amazon“騎臉”的尷尬。但我覺得 Redis Ltd. 高估了“重寫一個 Redis”這件事的難度——Redis 是個簡單的系統,要做替代品沒啥難度(不像實現完整功能的 Postgres 那樣離譜),所以他們這個姿態會不會讓社群覺得受不了?
Elasticsearch 的情況大同小異:公司宣佈改許可證,外面就冒出一個開源分支,公司又只好灰溜溜改回開源,但當時的熱鬧勁兒也已經過去。
奇怪的是,Redis 和 Elasticsearch 改證引發的反彈似乎比其他改證的資料庫大多了。像 MongoDB、Neo4j[37]Kafka[38]CockroachDB[39] 等等,它們改證時,社群好像沒有馬上都要分支“鬧獨立”。就算 CockroachDB 2024 年又改了一次[40]要大企業付錢,也沒見大規模分叉。那為啥 Redis 跟 Elasticsearch 就炸了鍋?裝機量大肯定是一方面,可當初 MongoDB 和 Kafka 的使用者基數也不小啊。我猜 Redis 的問題是:大家覺得 Redis Ltd. 這種 “拿別人東西來賺錢” 的感覺很不爽,因為創始人早就離開了,而公司這一連串操作,讓大家覺得他們對社群的貢獻並不匹配他們獲得的收益。另外,從 Redis 程式碼庫提交記錄[41]看,網際網路大廠(比如騰訊、阿里)也有不少貢獻,所以現在公司突然一刀切,也難怪大家炸毛。這跟 2023 年 HashiCorp[42] 改 Terraform 許可證被瘋狂吐槽一樣,都是 “佔了社群紅利,卻要反過來控盤”的嫌疑。
歸根到底,雲時代,開源資料庫公司(ISV)能不能活得下去確實很難。雲廠商有錢又有資源,只要他們想,把你的開源資料庫拿去當個外掛就行,比如 AWS 把 InfluxDB v2 協議[43]給移植到他們自己的 Timestream 上,分分鐘搶使用者。再者,他們還可以像 Bushwick Bill 前女友一樣,對著你的眼睛就是一槍[44],像 AWS 現在直接推出相容 Valkey 的服務,而且號稱比相容 Redis 的服務便宜 30%[45],這波釜底抽薪簡直太狠。
老馮評論:在《雲計算泥石流》專欄中,我已多次聊過這件事了:公有云 PaaS 雲軟體白嫖開源軟體(資料庫)的行徑是行業毒瘤,必將招致反噬 —— 而這將成為這個時代的行業核心議題。比如:雲遣返運動

Databricks vs. Snowflake 的街頭幫派混戰還在繼續

Databricks 和 Snowflake 之間的互懟依然火力全開。這倆大廠的恩怨情仇,絕對是一場“經典資料庫之戰”,已經從效能打到了生態、從檯面鬥到了臺下。
2024 年 3 月,Databricks 先開了一槍,宣佈花了 1000 萬美元訓練了一個自家開源大模型 DBRX[46],擁有 1320 億引數。開發團隊就是他們在 2023 年花 13 億美元收購的 Mosaic[47] 團隊。結果一個月後,Snowflake 也搞了個 Arctic 開源大模型[48],有 4800 億引數,號稱只花了 200 萬美元就把它訓練得能吊打 DBRX,尤其在“企業場景”諸如自動生成 SQL 方面更強。你能看出 Snowflake 故意把自己跟 DBRX 對比,一副“我就是要懟你 Databricks”的氣勢;他們甚至承認有其他模型(比如 Llama3)跑得比自己還猛,但就是硬要對比 DBRX。某位 AI 研究員說為什麼Snowflake 天天盯著 DBRX 不放[49],而不跟別的大模型比?他大概不知道這倆資料庫廠都流了多少血了。
就在公眾都盯著大模型大戰時,Databricks 和 Snowflake 又在“元資料目錄”這個領域暗自角力。從 2010 年代起,Hive 的 HCatalog[50] 一直是資料湖上的預設目錄服務。後來 Iceberg[51](Netflix 出品)和 Hudi[52](Uber 出品)崛起,這倆都成了 Apache 頂級專案,有不少風投支援的公司在運營。它們主要是做物件儲存(如 S3)的元資料服務,實現事務式的資料插入。Databricks 有自家專有的 Unity[53] 目錄,與 DeltaLake[54] 配合。Snowflake 則在 2022 年宣佈首次支援 Iceberg[55],隨後幾年進一步擴充套件對 Iceberg 的相容[56]。再後來他們打算收購 Tabular[57],也就是 Iceberg 背後最大的公司,以此在目錄這一塊跟 Databricks 抗衡。據說 Snowflake 差不多談好了6 億美元收購 Tabular[58],結果 Databricks 半路殺入,直接豪擲 20 億美元[59]把 Tabular 給搶了過來,而且就挑在 Snowflake CEO 主題演講那天宣佈……可憐的 Snowflake 當場尷尬;他們那天才剛宣佈一個 Polaris 開源目錄服務[60],結果 Databricks 隔天更是雪上加霜,放話要開源自家的 Unity 目錄[61]。這下算是給 Snowflake 一記 Murdergram[62]

Andy 的看法:

這場資料庫大戰已經不只是比誰跑得快那麼簡單。它不像 90 年代 Oracle 和 Informix 的對轟,那會兒拼的就是 SQL 查詢速度。確實,Informix 當年除了做基準測試還搞了官司[63]告 Oracle,說 Oracle 挖他們高管,結果最後自己撤訴了[64]。更慘的是 Informix CEO 後來還被爆出做財務造假,虛報營收指標來顯得比 Oracle 牛,最後 被判刑[65]坐了兩個月牢。
然而 Snowflake 和 Databricks 這一仗,已經擴充套件到資料庫周邊生態:從怎麼把資料灌進資料庫,到接下來怎麼處理資料,再到大模型和 AI 路線。這年頭,列式引擎跑分析已經算是大路貨[66]了,Databricks 和一眾 OLAP 廠商都在追著 Snowflake 的 2013 年設計思路走——當時就是基於 Snowflake 創始人之一的 博士論文[67]如今更重要的是使用者體驗(難以量化和收費)、與其他工具的相容,以及 AI / LLM 的點睛之筆
不過這種競爭對使用者來說是好事。狼多肉少,才能逼著技術進步、價格往下走。就像 Snowflake 現在把 Polaris 也捐給了 Apache[68],這不就是多一分開源、多一些平價選擇嘛。可別整成過去 Oracle 和 SalesForce 那種“兩個土豪 CEO 互相噴口水”,大把燒錢然後使用者也沒啥實際好處。

DuckDB 縫合大賽開始!

就像做線上業務時,首選資料庫是 PostgreSQL 一樣,如今做分析時的 “預設之王” 就是 DuckDB。以前大家可能還會說用 Pandas,但現在幾乎一開口就是“DuckDB 走起”。這貨特別輕便,所以很多人想把它塞進那些本身對 OLAP 支援不是特別好的資料庫。今年,我們就看到四款把 DuckDB 整合到 Postgres 的擴充套件相繼亮相。
第一槍是 2024 年 5 月,Crunchy Data[69] 宣佈做了個專有擴充套件[70],把 Postgres 重定向到 DuckDB 來處理 OLAP 查詢。隨後他們又搞了個更厲害的版本,利用 DuckDB 的空間擴充套件[71] 來加速 PostGIS 查詢[72]
2024 年 6 月,ParadeDB釋出[73]了一個開源擴充套件(pg_analytics[74]),用 Postgres 的 FDW API 去呼叫 DuckDB。在此之前,他們用的是 DataFusion(pg_lakehouse[75]),後來改用 DuckDB。
老馮評論:我幫助 ParadeDB 打好了所有 Linux 上的二進位制包,他們的創始人 Noel 曾經問我 PostgreSQL 分析引擎應該怎麼做,我說:趕緊去縫 DuckDB 吧。他們是僅次於 duckdb_fdw 後第二個入陣的玩家。
8 月,官方版的 DuckDB-for-Postgres 出爐了(pg_duckdb[76]),託管在 DuckDB Labs[77] 的 GitHub 下,算是名正言順的 DuckDB 官方外掛。原本宣傳說這是 MotherDuck[78]Hydra[79]、Microsoft 和 Neon[80] 聯合開發,結果後來據說 Microsoft 和 Neon 因為開發管理問題被“踢出去”了,就跟 阿拉伯王子[81] 離開 NWA 一樣。現在只剩 MotherDuck 和 Hydra 繼續幹。
11 月又來一個 pg_mooncake[82] 外掛(博文[83]),這次是 Mooncake Labs 出品。它跟前面三個不太一樣,是可以透過 Postgres 把資料寫進 Iceberg 表裡,還支援事務。
老馮評論:國內開發者李紅豔還有一個 DuckDB FDW 是另一個 Andy Pavlo 沒有提到的 DuckDB 縫合玩家。起了個大早,佔領了一個相當獨特的生態位。(同樣在 Pigsty 中可用,可惜與 pg_duckdb 不能同時安裝)

Andy 的看法:

大多數分析查詢其實訪問的資料並不多。Fivetran 分析過 Snowflake 和 Redshift 的使用情況,發現中位數查詢只掃描 100 MB[84]資料。區區 100 MB,一臺 DuckDB 完全夠用了。
DuckDB 的便攜和輕量,讓它在 Postgres 社群倍受歡迎。雖說 ClickHouse[85] 從 2016 年就有了,但以前想部署 ClickHouse 並沒 DuckDB 那麼簡單(參考他們官方回顧部署難度的文章[86])。而且透過把 DuckDB 嵌到 Postgres 裡,還能同時接駁 Iceberg、S3 等等,不用額外裝其他外掛。這讓很多組織輕鬆獲得高效能分析能力,而不用上昂貴的資料倉庫。
至於 Postgres 的擴充套件機制,那真是強大。“可擴充套件”一直是 80 年代 Postgres 設計目標[87]之一,人家就是要支援新儲存引擎、新資料型別等等。2006 年以後又引入了各種“鉤子”API。我們在 CMU 的研究[88] 裡發現,Postgres 擁有資料庫裡最繁榮、最百花齊放的擴充套件生態。當然,也有副作用:擴充套件之間可能互相沖突,導致奇奇怪怪的錯誤[89]
之前那些給 Postgres 加列式儲存的方案(比如 Citus、Timescale),只是解決了“儲存格式”這一部分問題。可如果引擎本身還堅持行式處理[90],那終究還是不夠。DuckDB 把列式儲存和向量化執行流程都帶到了使用者面前。
話說回來,本來我想做個 “turducken(火雞、鴨子、雞三合一)”的梗,再配合 Postgres 的象徵“大象”,可想想我還得保住飯碗,免得學校 找我麻煩[91],還是算了。
老馮評論:
PG 生態的 DuckDB 縫合大賽,算是一件乾脆就是我放火點燃的賽事。年初的一篇《PostgreSQL正在吞噬資料庫世界》 傳遍整個 PG 社群,成功的將 OLAP DuckDB 縫合推動成為了一場如火如荼的競爭。關於 DuckDB 縫合大賽的評論,請看拙作:誰整合好DuckDB,誰贏得OLAP資料庫世界》。
我認為 PG OLAP 擴充套件生態很快會出現類似 PGVECTOR 的爆款擴充套件,就在以上幾個選手中誕生。(目前我比較看好 pg_duckdb 與 pg_analytics)不管怎麼樣,這些擴充套件目前 全部 都在我的 Pigsty 擴充套件倉庫 中收錄。
小廣告:我製作了所有主流 Linux 發行版下的 RPM/DEB ,開箱即用!即使你不用 Pigsty,也可以使用 pig —— PG擴充套件管理器

零零散散的大小事件

2024 年裡,還有不少資料庫領域的“奇聞異事”可能你沒留意。我在這兒給大家快速打個包:

版本釋出:

Amazon Aurora DSQL 目前公開資訊不多,只知道它是個 “Spanner-like” 資料庫,AWS 自己的Mark Brooker[92] 也只說了點架構八卦:用分散式日誌服務(據說是基於已經下線的 QLDB),加上 Time Sync[93] 實現類似“時間戳排序”。感覺 AWS 也知道 “Aurora” 這牌子非常響,所以給這全新資料庫也掛了 Aurora 的名號,其實跟原先的 Aurora Postgres 似乎沒啥關係。
老馮評論:Amazon Aurora DSQL 號稱自己 PostgreSQL 相容,但是從他們文件中不支援的 PostgreSQL 特性列表來看,我認為他們應該使用更務實的說法 —— PostgreSQL 線纜協議(WireProtocol)相容。
總的來說這也從另一個角度反映出 MySQL 確實過氣了,因為很久以前 AWS 這種新品都是 MySQL 先上,這次連影子都沒有了。

Andy 的看法:

CedarDB Umbra[94] 絕對是目前最前沿的資料庫系統之一,而且據說背後那位大神正是“世界上最牛的資料庫研究員”[95]Thomas Neumann[96]。但人家 Thomas 似乎只想安安心心待在大學,把 Umbra 堆到 Clickbench[97] 榜首,不想給任何“煩人顧客”打工。所以他的一些博士生就把 Umbra fork 出來商業化,給它取名 CedarDB。
Google Bigtable 最有意思的是,這貨在 2024 年支援了 SQL……想當年 NoSQL 運動的先鋒,如今又加回 SQL 了,也是略有諷刺。
Limbo Turso 一直在搞 libSQL[98](SQLite 的分支),結果 2024 年他們又宣佈用 Rust 重寫 SQLite,名為 Limbo。他們也承認 SQLite 最牛的不只是程式碼,還有逆天的測試工程[99]。為此,Limbo 還請來了前 FoundationDB 團隊創立的測試創業公司[100]幫忙做確定性測試[101]
Microsoft Garnet 這是 MS 出的鍵值庫,號稱是 FASTER[102] 的繼任者,相容 Redis,支援多執行緒並行、支援大於記憶體的資料集,還有真·事務。Redis 在 2024 年還真別當啥首選了。
MySQL v9 距離 MySQL v8 GA 已經過了六年,終於出了 v9。結果大家發現當資料表超過 8000 張[103]就會崩……我對這個新版功能列表(官方連結[104])真的提不起勁。Oracle 自家把更多資源放到閉源的 MySQL Heatwave[105] 服務上。MySQL 的使用量依然很大,但討論熱情明顯不如從前,大家基本都轉投 PostgreSQL 的懷抱了。
老馮評論:關於 MySQL 的糊弄,躺平擺爛,缺陷與過氣,我已經說過不少了,合訂本請看這裡。老實說,我已經懶得再寫這些已經算是 “共識” 的東西了:
Prometheus v3 距離上個大版本已經七年。這期間出現了一大堆相容 Prometheus 的替代品(參考這裡[106]),所以也不一定非得用原版 Prometheus。
老馮評論:VictoriaMetrics 現在已經佔領了高效能 Promethues 的生態位,成為高效能 APM 時序資料庫的事實標準。

收購案:

Alteryx → 私募股權 我沒見過任何人在用 Alteryx,也沒啥評價。MariaDB → 私募股權 祝 PE 公司能把 MariaDB 這爛攤子收拾好。我去年有過專門的 吐槽[107]OrioleDB → Supabase Supabase 是當下 Postgres 生態裡的一大玩家。Postgres 前端是棒棒的,可後端儲存層有點老舊[108]。OrioleDB 這套改造,對他們正好有用。PeerDB → ClickHouse 幫助把 Postgres 資料 ETL 到 ClickHouse。ClickHouse 公司這個收購挺機智。
PopSQL → Timescale 他們買了個高顏值的 SQL 編輯器 UI,算是改善使用者體驗吧。Speedb → Redis Ltd. 在前面 Redis 改證[109] 那段提過。估計是想讓 Redis 支援磁碟資料。Speedb 的開發者並沒公開他們在 RocksDB 上的改動到底有啥(至少我沒找到),可以看 Mark Callaghan 的對比測試[110]Rockset → OpenAI 對 Rockset 而言是大事件,但他們在 2024 年 9 月就關停了 DBaaS 服務。Rockset 工程團隊很牛,很多都是 Facebook 頂尖工程師。可我一直不喜歡它的資料儲存方式——三份冗餘索引。Tabular → Databricks 同上文提到[111]。Iceberg 基本就是大勢所趨(對不起 Hudi),連 Amazon S3 都原生支援了[112]。後面就看 Snowflake 的 Polaris 怎麼搞,以及他們能否長期保持互通性了。Verta.ai → Cloudera 沒想到 Cloudera 還活著?Warpstream → Confluent Warpstream 用 Go 重寫了 Kafka,還能把資料落到 S3。我替 Warpstream 的團隊開心,但 Confluent 其實自己也能幹呀。

融資:

Databricks – J 輪 100 億美元[113]LanceDB – 800 萬美元種子輪[114]SDF – 900 萬美元種子輪[115]SpiceDB – 1200 萬美元 A 輪[116]TigerBeetle – 2400 萬美元 A 輪[117]
老馮評論:還有 PG系創業公司Supabase:$80M C輪融資,以及我整理了近兩年的融資紀錄:
另外還有 CedarDB[118]SpiralDB[119] 等的融資,數額還沒公開。

倒閉:

Amazon QLDB 連 Amazon 都搞不下去一個區塊鏈資料庫(好吧它其實也不算真正的去中心化區塊鏈),那就說明這個方向真不行了。OtterTune 這個是我、Dana[120] 和 Bohan[121] 花了快十年精力搞的科研和創業專案。結果現在還得說再見。對某家在最後階段“對我們不厚道”的公司,我只想說:你們永遠被禁止從 CMU-DB 招人。你們知道自己幹了啥。
特別要給 Andres Freund[122] 點贊,他在 2024 年發現了 xz backdoor[123] 這個安全漏洞。這個後門是潛伏了兩年[124]的蓄意攻擊,目標是一個廣泛使用的壓縮庫(xz),主要想搞 SSH,但是卻被 PostgreSQL 提交者發現了 —— 這提醒我們——資料庫工程師真的是身懷絕技的頂級工程師。

Andy 的看法:

Databricks 今年再一次把資料庫圈的融資總額甩在身後,狂砸100 億美元 J 輪[125],之前 2023 年的 5 億美元 I 輪[126] 和 2021 年的 16 億美元 H 輪[127]都已經夠驚人了。這次不太一樣的是,據說這輪錢是拿來給老員工變現的(“二級市場收員工的股”[128])。好幾位 CMU-DB 校友都在 Databricks,包括我曾經的頭號博士生[129],他們中的很多人正等著 Databricks 上市好套現,看下一步人生去哪兒。
明年很可能是很多資料庫初創公司力量的試金石。沒人想淪為下一個 MariaDB Corporation[130]……所以很多公司都想等 Databricks 上市時帶動整個資料庫板塊的熱度再 IPO。若明年利率真的下降[131],可能又會釋放一波資金,砸向那些兩三年前就融過大錢但一直沒上市的公司(如 CockroachDB、Starburst、Imply、DataStax、SingleStore、Firebolt 等)。其中一個例外是 dbtLabs,傳聞他們現在依然挺爽的。
更多 2024 年新出的資料庫可見 Database of Databases[132]

無法停歇,Ellison 不服老

你可知道誰在今年迎來 80 大壽?正是我們傳奇的 Larry Ellison!是的,這位拒絕認命、拒絕給自己設限的狠角色,又在這一年創下了一系列壯舉。今年他富到自己都快擠進 世界富豪榜前三[133]。2024 年 3 月,Oracle 股價瘋漲,他一天就賺了 150 億美元[134]。拿到錢後,7 月他又花 60 億[135]把派拉蒙影業買給他兒子(第三任老婆所生)。接著他又以 2.77 億美元[136]在棕櫚灘買了個度假村,只當小玩意兒收著。別忘了,這些都只是他 2024 年的花錢小插曲,背後都是靠資料庫發家致富啊。
但真正的重頭戲,還屬 2024 年 11 月發生的一件事——Larry 資助了密歇根大學橄欖球隊招攬一個超級牛的大學四分衛[137]。這名球員原先在路易斯安那州立大學,後來轉學去了密歇根。那份校方的官方宣告還特別感謝了“一位名叫 Larry 和他妻子 Jolin 的捐助人”。結果媒體挖出[138]這個 Larry 就是甲骨文老闆 Larry Ellison!他豪捐了 1200 萬美元給校友會,用於請到最牛的四分衛來密歇根打球。
之後大家都好奇的是這位 “Jolin” 到底是誰。有人翻出過去 Larry 在網球場觀戰時跟一個戴密歇根帽子的女士[139]合影的照片。兩週後,某家大媒體凌晨 5:30 放出猛料(把我從夢裡吵醒),證實[140]那位女士叫 Jolin (Keren) Zhu,而且她就是 Larry 的新任老婆。

Andy 的看法:

我對 Larry 的最新成就真是打心底裡佩服。他本身連大學都沒畢業,跟密歇根大學本來一點關係都沒有,卻因為他現任太太十年前在密歇根讀過書,就願意掏上千萬美金去幫忙挖來橄欖球明星,也就佔他淨資產的 0.0055%……我跟他說,這事對我來說也很意義非凡,因為我以前的頭號博士生[141]現在是密歇根大學計算機系的教授,而且那兒的資料庫小組[142]也很牛。
更讓人激動的是,Larry 再一次在愛情裡找到了感覺!現如今,約會軟體五花八門,卻也都難找到真愛。很多人線下活動也尷尬,甚至有人想在操場守株待兔結果被當做“怪蜀黍”。就算好不容易遇上對方,可能又因一些小毛病(比如不愛洗襪子,或者喜歡往麥片里加辣醬)而崩盤。所以當初人人都說 Larry 第四任婚姻(2010 年離[143])之後不會再結婚;然後他在2020 年跟第五任[144]也分了,大家更堅定他不會再進婚姻殿堂。可誰知道,他還是找到了真愛,這次是第六任——Keren Zhu!

結語

原本我想開篇吹噓一下,說這是我三年來第一次跨年沒生病。結果我親閨女把 COVID 傳給了我,我只好抱著處方藥躺平。好在之前 9 月打過加強針,醫生又給開了 Paxlovid,應該不會有大礙。
OtterTune 的死讓我很唏噓,但也是一段珍貴經歷。我很榮幸曾跟很多聰明人一起共事,也很感謝 Intel Capital[145] 和 Race Capital[146] 一直支援我們到最後。我接下來可能會再搞個新創業專案(提示:還是跟資料庫有關)。
目前我又回到卡內基梅隆大學全職當教授了,和 Jignesh Patel[147] 有幾個“大殺器”研究專案準備出爐。這個學期我還要開一門查詢最佳化[148]的新課,希望能打造出高質量的“資料教程”。得想辦法提升我的學術影響力,因為 2024 年 9 月維基百科那幫人還把我條目給刪了[149],說我引用數不夠……真有點鬱悶。
最後提醒各位,我們還在支援 DJ Mooshoo[150] 兄弟,他現在在庫克郡蹲著呢,希望 2025 年能把他撈出來。
PS:還想給 ByteBase 點個贊,他們寫了篇《2024 年資料庫工具回顧》[151]。往年他們都會先發郵件問我,能不能把我那篇年度回顧翻譯成中文放在他們部落格。今年他們等不及了,直接用了同樣的標題和套路自己先寫了一篇,不過也挺有意思哈哈。
(全文完)

References

[1]

 這裡有影片佐證: 

https://youtu.be/pMoBAk-HFIg
[2]

 OtterTune: 

https://ottertune.com/
[3]

 2023 年資料庫回顧: 

https://www.cs.cmu.edu/~pavlo/blog/2024/01/2023-databases-retrospective.html
[4]

 2022 年資料庫回顧: 

https://www.cs.cmu.edu/~pavlo/blog/2022/12/2022-databases-retrospective.html
[5]

 2021 年資料庫回顧: 

https://www.cs.cmu.edu/~pavlo/blog/2021/12/2021-databases-retrospective.html
[6]

 關係型: 

https://youtu.be/8Woy5I511L8
[7]

 2018 年: 

https://techcrunch.com/2018/10/16/mongodb-switches-up-its-open-source-license/
[8]

 SSPL(Server Side Public License): 

https://en.wikipedia.org/wiki/Server_Side_Public_License
[9]

 2021 年改名為 RedisLtd.: 

https://redis.io/blog/becoming-one-redis/
[10]

 Salvatore Sanfilippo: 

https://github.com/antirez
[11]

 從非常寬鬆的 BSD-3 協議改為雙許可證: 

https://redis.io/blog/redis-adopts-dual-source-available-licensing/
[12]

 Redis Source AvailableLicense: 

https://redis.com/legal/rsalv2-agreement/
[13]

 Speedb: 

https://www.speedb.io/
[14]

 RocksDB 的開源分支: 

https://github.com/speedb-io/speedb
[15]

 迅速的反彈: 

https://lwn.net/Articles/966631/
[16]

 兩個基於 BSD-3 舊程式碼的分支: 

https://www.thestack.technology/battle-of-the-redis-forks-begins/
[17]

 Valkey: 

https://valkey.io/
[18]

 Redict: 

https://redict.io/
[19]

 Linux 基金會: 

https://www.linuxfoundation.org/press/linux-foundation-launches-open-source-valkey-community
[20]

 還把某些開源 Redis 拓展專案的控制權收走: 

https://twitter.com/TomHacohen/status/1861137484249252093
[21]

 發文: 

https://antirez.com/news/144
[22]

 Bushwick Bill(RIP)、Scarface 和 Willie D 在 2015 年重組: 

https://youtu.be/9xqvqybGMHk
[23]

 轉向雙重許可證: 

https://www.elastic.co/blog/elastic-license-update
[24]

 Elastic License: 

https://www.elastic.co/blog/elastic-license-v2
[25]

 2015 年: 

https://aws.amazon.com/blogs/aws/new-amazon-elasticsearch-service/
[26]

 OpenSearch: 

https://opensearch.org/
[27]

 宣佈反悔: 

https://www.elastic.co/blog/elasticsearch-is-open-source-again
[28]

 AGPL: 

https://en.wikipedia.org/wiki/GNU_Affero_General_Public_License
[29]

 Not Like Us: 

https://www.youtube.com/watch?v=H58vbez_m4E
[30]

 Drake: 

https://www.bbc.com/news/articles/c0rgl497k59o
[31]

 OpenSearch 專案捐給了 Linux 基金會: 

https://www.linuxfoundation.org/press/linux-foundation-announces-opensearch-software-foundation-to-foster-open-collaboration-in-search-and-analytics
[32]

 默默關停: 

https://news.ycombinator.com/item?id=40507691
[33]

 Altibase: 

https://github.com/ALTIBASE/altibase/blob/main/README.md
[34]

 事務: 

https://redis.io/docs/latest/develop/interact/transactions/
[35]

 Dragonfly: 

https://www.dragonflydb.io/
[36]

 “該怎麼寫才不會這麼難看”: 

https://youtu.be/fZbwD1gzjLk?t=2018
[37]

 Neo4j: 

https://neo4j.com/open-core-and-neo4j/
[38]

 Kafka: 

https://www.infoq.com/news/2018/12/confluent-license-changes/
[39]

 CockroachDB: 

https://web.archive.org/web/20240703021228/https://www.cockroachlabs.com/blog/oss-relicensing-cockroachdb/
[40]

 CockroachDB 2024 年又改了一次: 

https://techcrunch.com/2024/08/15/cockroach-labs-shakes-up-its-licensing-to-force-bigger-companies-to-pay/
[41]

 Redis 程式碼庫提交記錄: 

https://lwn.net/Articles/966631/
[42]

 HashiCorp: 

https://techcrunch.com/2023/09/20/terraform-fork-gets-a-new-name-opentofu-and-joins-linux-foundation/
[43]

 InfluxDB v2 協議: 

https://aws.amazon.com/about-aws/whats-new/2024/03/amazon-timestream-influxdb-available/
[44]

 對著你的眼睛就是一槍: 

https://www.youtube.com/watch?v=i3M41aqHyfQ
[45]

 比相容 Redis 的服務便宜 30%: 

https://www.lastweekinaws.com/blog/aws-valkey-play-when-a-fork-becomes-a-price-cut/
[46]

 自家開源大模型 DBRX: 

https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm
[47]

 Mosaic: 

https://www.databricks.com/research/mosaic
[48]

 Arctic 開源大模型: 

https://www.snowflake.com/en/blog/arctic-open-efficient-foundation-language-models-snowflake/
[49]

 為什麼Snowflake 天天盯著 DBRX 不放: 

https://medium.com/@mario.defelipe/my-deception-with-databricks-dbrx-and-snowflake-arctic-enterprise-llms-b4fd4faf752a#c0e4
[50]

 HCatalog: 

https://cwiki.apache.org/confluence/display/hive/hcatalog+usinghcat
[51]

 Iceberg: 

https://iceberg.apache.org/
[52]

 Hudi: 

https://hudi.apache.org/
[53]

 Unity: 

https://www.databricks.com/product/unity-catalog
[54]

 DeltaLake: 

https://delta.io/
[55]

 首次支援 Iceberg: 

https://www.snowflake.com/blog/expanding-the-data-cloud-with-apache-iceberg/
[56]

 擴充套件對 Iceberg 的相容: 

https://medium.com/snowflake/an-overview-of-snowflake-apache-iceberg-tables-d5e85864ac99
[57]

 Tabular: 

https://www.tabular.io/
[58]

 6 億美元收購 Tabular: 

https://financialpost.com/pmn/business-pmn/inside-the-snowflake-databricks-rivalry-and-why-both-fear-microsoft
[59]

 豪擲 20 億美元: 

https://techcrunch.com/2024/08/14/databricks-reportedly-paid-2-billion-in-tabular-acquisition/
[60]

 Polaris 開源目錄服務: 

https://venturebeat.com/data-infrastructure/snowflake-unveils-polaris-a-vendor-neutral-open-catalog-implementation-of-apache-iceberg/
[61]

 開源自家的 Unity 目錄: 

https://twitter.com/databricks/status/1801293028612837877
[62]

 Murdergram: 

https://www.youtube.com/watch?v=50Tl8E0Vvms
[63]

 搞了官司: 

https://archive.is/JvvhM
[64]

 撤訴了: 

https://www.cnet.com/tech/services-and-software/informix-withdraws-oracle-suit/
[65]

 被判刑: 

https://www.eweek.com/database/ex-informix-ceo-gets-jail/
[66]

 大路貨: 

https://db.cs.cmu.edu/seminar2024/
[67]

 博士論文: 

https://www.youtube.com/watch?v=moQY_eiHCTs
[68]

 Apache: 

https://polaris.apache.org/
[69]

 Crunchy Data: 

https://www.crunchydata.com/
[70]

 專有擴充套件: 

https://www.crunchydata.com/blog/how-we-fused-duckdb-into-postgres-with-crunchy-bridge-for-analytics
[71]

 空間擴充套件: 

https://duckdb.org/docs/extensions/spatial/overview.html
[72]

 加速 PostGIS 查詢: 

https://www.crunchydata.com/blog/postgis-meets-duckdb-crunchy-bridge-for-analytics-goes-spatial
[73]

 釋出: 

https://www.linkedin.com/posts/philippemnoel_im-incredibly-excited-to-announce-duckdb-activity-7212107481123020800-UUg6/
[74]

 pg_analytics: 

https://github.com/paradedb/pg_analytics
[75]

 pg_lakehouse: 

https://github.com/paradedb/paradedb/tree/dev/pg_lakehouse
[76]

 pg_duckdb: 

https://github.com/duckdb/pg_duckdb
[77]

 DuckDB Labs: 

https://duckdblabs.com/
[78]

 MotherDuck: 

https://motherduck.com/
[79]

 Hydra: 

https://www.hydra.so/
[80]

 Neon: 

https://neon.tech/
[81]

 阿拉伯王子: 

https://youtu.be/ECAfnZIN1-A
[82]

 pg_mooncake: 

https://github.com/Mooncake-Labs/pg_mooncake
[83]

 博文: 

https://mooncake.dev/blog/how-we-built-pgmooncake
[84]

 中位數查詢只掃描 100 MB: 

https://www.fivetran.com/blog/how-do-people-use-snowflake-and-redshift
[85]

 ClickHouse: 

https://clickhouse.com/
[86]

 回顧部署難度的文章: 

https://clickhouse.com/blog/clickhouse-over-the-years-with-benchmarks
[87]

 Postgres 設計目標: 

https://dsf.berkeley.edu/papers/ERL-M85-95.pdf
[88]

 CMU 的研究: 

http://reports-archive.adm.cs.cmu.edu/anon/2023/abstracts/23-144.html
[89]

 奇奇怪怪的錯誤: 

https://www.youtube.com/watch?v=U7v0fubktoY
[90]

 行式處理: 

https://www.youtube.com/watch?v=tsbbwiWw9VE&list=PLSE8ODhjZXjYa_zX-KeMJui7pcN1rIaIJ&index=5
[91]

 找我麻煩: 

https://www.cmu.edu/policies/faculty/appointment-and-tenure-policy.html#dismissal
[92]

 Mark Brooker: 

https://brooker.co.za/blog/2024/12/03/aurora-dsql
[93]

 Time Sync: 

https://aws.amazon.com/blogs/compute/its-about-time-microsecond-accurate-clocks-on-amazon-ec2-instances/
[94]

 Umbra: 

https://umbra-db.com/
[95]

 “世界上最牛的資料庫研究員”: 

https://twitter.com/andy_pavlo/status/1221464821717258242
[96]

 Thomas Neumann: 

https://en.wikipedia.org/wiki/Thomas_Neumann
[97]

 Clickbench: 

https://benchmark.clickhouse.com/
[98]

 libSQL: 

https://libsql.org/
[99]

 逆天的測試工程: 

https://sqlite.org/th3.html
[100]

 前 FoundationDB 團隊創立的測試創業公司: 

https://antithesis.com/
[101]

 確定性測試: 

https://www.youtube.com/watch?v=OJb8A6h9jQQ&list=PLSE8ODhjZXjagqlf1NxuBQwaMkrHXi-iz&index=22
[102]

 FASTER: 

https://microsoft.github.io/FASTER/
[103]

 8000 張: 

https://perconadev.atlassian.net/browse/PS-9306
[104]

 官方連結: 

https://dev.mysql.com/doc/refman/9.0/en/mysql-nutshell.html
[105]

 MySQL Heatwave: 

https://www.oracle.com/mysql/
[106]

 參考這裡: 

https://dbdb.io/browse?compatible=prometheus
[107]

 吐槽: 

https://www.cs.cmu.edu/~pavlo/blog/2024/01/2023-databases-retrospective.html#mariadb
[108]

 有點老舊: 

https://www.cs.cmu.edu/~pavlo/blog/2023/04/the-part-of-postgresql-we-hate-the-most.html
[109]

 Redis 改證: 

https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024-databases-retrospective.html#licenses-redis
[110]

 Mark Callaghan 的對比測試: 

http://smalldatum.blogspot.com/2024/12/speedb-vs-rocksdb-on-large-server.html
[111]

 提到: 

https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024-databases-retrospective.html#gangwar
[112]

 Amazon S3 都原生支援了: 

https://aws.amazon.com/about-aws/whats-new/2024/12/amazon-s3-tables-apache-iceberg-tables-analytics-workloads/
[113]

 J 輪 100 億美元: 

https://www.databricks.com/company/newsroom/press-releases/databricks-raising-10b-series-j-investment-62b-valuation
[114]

 800 萬美元種子輪: 

https://siliconangle.com/2024/05/15/lancedb-raises-8m-speed-ai-models-open-source-vector-database/
[115]

 900 萬美元種子輪: 

https://www.geekwire.com/2024/data-warehousing-startup-sdf-led-by-microsoft-and-meta-vets-comes-out-of-stealth-mode/
[116]

 1200 萬美元 A 輪: 

https://authzed.com/blog/series-a-funding
[117]

 2400 萬美元 A 輪: 

https://tigerbeetle.com/blog/2024-07-23-rediscovering-transaction-processing-from-history-and-first-principles
[118]

 CedarDB: 

https://cedardb.com/
[119]

 SpiralDB: 

https://spiraldb.com/
[120]

 Dana: 

https://www.linkedin.com/in/dana-van-aken/
[121]

 Bohan: 

https://www.linkedin.com/in/bohan-zhang-52b17714b
[122]

 Andres Freund: 

https://www.linkedin.com/in/andres-freund
[123]

 xz backdoor: 

https://arstechnica.com/security/2024/04/what-we-know-about-the-xz-utils-backdoor-that-almost-infected-the-world/
[124]

 潛伏了兩年: 

https://twitter.com/thegrugq/status/1774392858101039419
[125]

 100 億美元 J 輪: 

https://www.prnewswire.com/news-releases/databricks-is-raising-10b-series-j-investment-at-62b-valuation-302333822.html
[126]

 5 億美元 I 輪: 

https://www.databricks.com/company/newsroom/press-releases/databricks-raises-series-i-investment-43b-valuation
[127]

 16 億美元 H 輪: 

https://techcrunch.com/2021/08/31/databricks-raises-1-6b-at-38b-valuation-as-it-blasts-past-600m-arr/
[128]

 “二級市場收員工的股”: 

https://sherwood.news/business/databricks-employees-are-cashing-in-on-its-series-j/
[129]

 頭號博士生: 

https://www.linkedin.com/in/prasmenon/
[130]

 MariaDB Corporation: 

https://share.chartiq.com/M53BOUC094.png
[131]

 真的下降: 

https://www.forbes.com/sites/donbutler/2024/10/09/interest-rates-and-the-search-for-liquidity-in-venture-capital/
[132]

 Database of Databases: 

https://dbdb.io/browse?start-year=2024
[133]

 世界富豪榜前三: 

https://www.forbes.com/sites/dereksaul/2024/09/10/larry-ellison-becomes-richer-than-zuckerberg-arnault-as-oracle-stock-rallies-to-record-high/
[134]

 一天就賺了 150 億美元: 

https://www.cnbc.com/2024/03/12/larry-ellison-makes-15-billion-from-oracle-best-day-since-2021.html
[135]

 花 60 億: 

https://www.hollywoodreporter.com/business/business-news/paramount-larry-ellison-david-ellison-1236006769/
[136]

 以 2.77 億美元: 

https://www.palmbeachdailynews.com/story/business/real-estate/2024/08/08/billionaire-ellison-buys-eau-palm-beach-resort-spa-near-palm-beach/74723944007/
[137]

 招攬一個超級牛的大學四分衛: 

http://archive.today/2024.11.24-013436/https://frontofficesports.com/larry-ellison-michigan-nil-bryce-underwood/
[138]

 挖出: 

https://www.marketwatch.com/story/billionaire-larry-ellison-helped-give-a-high-school-student-10-million-to-play-football-for-michigan-and-gave-us-a-glimpse-behind-the-nil-curtain-6bf5d87f
[139]

 戴密歇根帽子的女士: 

https://mgoblog.com/mgoboard/tennis-fans-who's-woman-michigan-hat-next-larry-ellison
[140]

 證實: 

http://archive.today/2024.12.07-023939/https://www.wsj.com/sports/football/michigan-recruiting-larry-ellison-bryce-underwood-842d2c9a
[141]

 以前的頭號博士生: 

https://web.eecs.umich.edu/~linmacse/
[142]

 資料庫小組: 

https://dbgroup.eecs.umich.edu/
[143]

 2010 年離: 

https://web.archive.org/web/20101102010955/http://tech.fortune.cnn.com/tag/melanie-craft/
[144]

 2020 年跟第五任: 

https://marketrealist.com/p/larry-ellison-girlfriend/
[145]

 Intel Capital: 

https://www.intelcapital.com/
[146]

 Race Capital: 

https://race.capital/
[147]

 Jignesh Patel: 

https://jigneshpatel.org/
[148]

 查詢最佳化: 

https://15799.courses.cs.cmu.edu/spring2025/
[149]

 刪了: 

https://en.wikipedia.org/wiki/Wikipedia:Articles_for_deletion/Andy_Pavlo
[150]

 DJ Mooshoo: 

https://youtu.be/APqWIjtzNGE?t=4941
[151]

 《2024 年資料庫工具回顧》: 

https://www.bytebase.com/blog/database-tool-review-2024/

點一個關注 ⭐️,精彩不迷路

相關文章