開源 / 自由軟體的官方網站或原始碼託管通常都是可以公開訪問的,但提供公開訪問是需要伺服器和頻寬支撐的,正常情況下真實使用者訪問不會給伺服器帶來多少壓力。
知名桌面環境 GNOME 管理員分享了關於伺服器流量的分析資料,資料表明在 2.5 小時內 GNOME 收到 81,000 個請求,其中只有 3% 透過 Anubi 的工作量證明,這意味著剩餘 97% 都是爬蟲而非真人訪問。
這些爬蟲通常不會遵守 robots.txt 協議,並且人工智慧公司的爬蟲擁有大量 IP 地址,這些公司透過這些 IP 地址併發向開源專案網站發出請求賺取網站或專案資料。

為了應對這些爬蟲消耗伺服器硬體資源和網路頻寬,GNOME 不得不使用名為 Anubi 的工作流證明系統用來攔截 AI 爬蟲程式,有時候這可能還會誤傷真實訪問的使用者。
GNOME 並不是唯一遭受 AI 爬蟲類似 DDoS 攻擊般瘋狂抓取的專案,KDE、Fedora、LWN、Frame Software 等也都在面臨同樣的問題:其網站和基礎設施絕大部分流量都來自 AI 爬蟲。
應對這種攻擊並沒有太好的辦法,管理員正在浪費大量時間、金錢和資源來抵禦這些飢餓的 AI 大軍 — 人工智慧公司都在瘋狂抓取資料用來訓練模型。
此前包括 OpenAI ChatGPT 和字節跳動的 Bytespider 都被發現高頻抓取網站導致網站近乎癱瘓,這些爬蟲有時候不遵守 robots.txt 協議,有時候則是併發海量請求導致伺服器癱瘓。
對這些 AI 公司來說這不會有任何損失,但被高頻抓取的網站就遭殃了,浪費伺服器資源的同時還必須想法設法識別和攔截這些爬蟲,最後只有網站損失慘重。
另外大多數已知的爬蟲例如 GPTBot 還比較容易透過 UA 進行攔截,還有大量的爬蟲不會公佈自己的名稱,而是模擬智慧手機使用者進行訪問,這種情況下靠 UA 識別和攔截非常麻煩。