

近日,多個開源社群紛紛抱怨,由於 AI 公司大規模抓取其程式碼託管、文件等公共資源,專案基礎設施一度面臨“近似 DDoS 級”訪問壓力,導致伺服器頻繁宕機或效能嚴重下降。SourceHut 創始人 Drew DeVault、GNOME、KDE、Inkscape、Fedora 等多個社群都先後發出聲音,呼籲外界關注和正視這個問題。
三天前,開原始碼託管平臺 SourceHut 的創始人兼 CEO Drew DeVault 在其最新博文《Please stop externalizing your costs directly into my face》中,憤怒地描述了他近月來與 AI 模型爬蟲的“交鋒”經歷:
每週我們都會經歷數十次短暫的宕機,為了阻止這個數字繼續上升,我每天要審查我們的防護措施好幾次。即使我偶爾想抽空做點別的工作,也常常不得不在所有報警響起時立馬放下手頭事務,因為現有的防護措施又失效了。SourceHut 有好幾個高優先順序的任務已經因此被耽擱了數週甚至數月。
他指出,這些抓取工具並不遵守“robots.txt”協議,也不會尊重流量限制,甚至會訪問極耗費系統資源的連結,比如
git blame
、所有 Git 日誌頁面等。更棘手的是,這些流量來自數以萬計的 IP 地址、隨機化的 User-Agent 來“偽裝”成普通使用者流量,給識別與攔截帶來了極大難度。DeVault 在博文中坦言,近期他自己有 20%~100% 的工作時間都被迫花在與這些 LLM 爬蟲的對抗上:“我們有好幾個高優先順序任務被耽擱了數週甚至數月,因為每次想回到正常的開發或管理上,都被伺服器警報打斷——我們的防禦措施又失效了。”
同時,他指出,其社群的真實使用者也會因此受到影響——“我們的防護策略無法可靠地區分真實使用者與爬蟲。”
DeVault 特別提到,他的“系統管理員朋友們”其實都遭遇了相同的困擾,LLM 爬蟲令所有開源專案措手不及。每次他跟朋友出去喝酒或吃飯,只要有幾個系統管理員在場,大家很快就會開始抱怨這些爬蟲,然後互相打聽對方有沒有找到什麼“一勞永逸”的解決方案。
的確,其他開源社群也面臨相似情況。最近 KDE 大量“偽裝成 Microsoft Edge”瀏覽器的惡意流量或爬蟲;GNOME 自去年 11 月以來就一直遇到問題,被迫實施臨時流量限制,限制未登入使用者檢視合併請求和提交記錄,大幅影響了真實的匿名訪客。

GNOME 最終部署了一種名為“Anubis”的防禦工具。該系統會向訪問者提出一次 Proof-of-Work 挑戰,要求瀏覽器先完成一定量的計算再呈交結果。只有闖關成功,才能訪問網站。然而,這卻難免波及普通使用者。如果某個連結在聊天室或新聞社群裡被頻繁點選,系統可能瞬間提高難度,導致普通使用者的等待時間可能長達數十秒乃至數分鐘。
在 Mastodon 上,據 GNOME 管理員所分享的資料,在某個時段的 2.5 小時裡,他們總共收到約 8.1 萬次請求,僅有 3% 成功透過 Anubis 驗證,其餘 97% 被判定為爬蟲。“雖然 Anubis 阻止了爬蟲洪流,但也給正常使用者帶來不少困擾。”
不止 GNOME 與 KDE。Fedora 社群為保持其 Pagure 程式碼託管平臺的穩定,不得已遮蔽了大量可疑 IP 段。由於某些 AI 爬蟲來自同一國家的海量 IP,Fedora 一度只好封禁整個國家(如巴西)的訪問請求,這種“一刀切”也引發社群使用者對誤傷的擔憂。
Inkscape 專案上週也表示,大量 AI 爬蟲使用“假冒瀏覽器 UA”或完全無視網站防爬協議。為了維持網站可用性,相關維護者被迫持續擴充“Prodigius”級別的黑名單;甚至 Frama 軟體公司的 BigGrizzly 也曾被一個惡意的 LLM 爬蟲淹沒,並建立了一個包含 46 萬個可疑 IP 的列表。
對此進行更全面的嘗試是“ai.robots.txt”專案,這是一個與 AI 公司相關的網路爬蟲的開放列表。他們提供了一個實施 Robots Exclusion Protocol 的 robots.txt 和一個 .htaccess 檔案,該檔案在收到列表中任何 AI 爬蟲的請求時都會返回錯誤頁面。

開源去中心化社群 Diaspora 的維護者 Dennis Schubert 幾個月前吐槽了相似的經歷,他說“檢視流量日誌讓他非常生氣”。
他當時提到,過去 60 天內 Diaspora 的網站與文件服務共收到 1130 萬次請求,其中近 70% 來自 OpenAI 的 GPTBot、Amazonbot、ClaudeBot 等 AI 爬蟲。
“它們不僅反覆抓取同樣的頁面,還爬到維基的每條歷史編輯記錄、每次 diff 修改上——甚至每 6 小時就要來一遍!它們對 robots.txt 完全視而不見,頻繁換 IP、偽造普通瀏覽器 UA,搞得伺服器效能飆升、宕機頻發。”

Schubert 指出,對比之下,Googlebot、Bingbot 等傳統搜尋引擎抓取非常剋制,佔比僅 0.14%,不會一遍又一遍地獲取相同“毫無價值的內容”。他表示,這些 “不守規矩的 LLM 爬蟲簡直對整個網際網路發動了 DDoS 攻擊”,讓運維人員疲憊不堪。
開源平臺 Read the Docs 去年曾公開過這樣一個數字,遮蔽所有 AI 爬蟲後,其網站流量從每天 800GB 直接降至 200GB,節省了約 1500 美元 / 月的運營成本,“可見這類流量之巨”。
對 DeVault 來說,這已經不是第一次被迫替大機構或投機分子“背鍋”。他在博文最後抨擊了包括加密貨幣、谷歌團隊、矽谷 AI 公司在內的多方,認為他們統統在把自己的成本“推給別人”,而這一切都在消耗社會公共資源,尤其是像 SourceHut 這樣的中小型平臺。
“我已經受夠了,這些人一個勁兒地把成本轉嫁到我臉上,讓我疲於應對。要麼去幹點對社會有益的事,要麼就滾遠點,別來動我的伺服器。在系統管理員們集體革命之前,拿你們那些數以百億計的資金為公眾做點好事吧。”DeVault 寫道。
總的來看,開源社群似乎進退兩難。一方面,開源文化強調開放協作,不可能對普通使用者關閉文件、倉庫訪問;另一方面,社群往往沒有雄厚的商業贊助來維持昂貴的頻寬和伺服器,現階段也只能依賴 PoW、黑名單、甚至大範圍封禁等手段來暫時緩解問題。
面對來勢洶洶的 AI 爬蟲浪潮,各大開源專案都在積極探索更高效、對普通使用者更友好的解決方案。但無論如何,這都會是一個長期博弈的過程,涉及到行業規範、AI 爬蟲自律以及社群共同行動。
參考連結:
https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/
https://drewdevault.com/2025/03/17/2025-03-17-Stop-externalizing-your-costs-on-me.html
https://pod.geraspora.de/posts/17342163
宣告:本文為 InfoQ 整理,不代表平臺觀點,未經許可禁止轉載。
今日好文推薦
🚀應屆生親測 DeepSeek 等 5 大 AI 寫論文!1 小時速成框架 / 文獻 / 排版✅
🔥3 月 21 日 19 點直播:AI 協同指南|工具包福利
⏰DDL 急救!掃碼預約領《DeepSeek 知識庫》,開播提醒不遲到👇
