每週宕機數十次，CEO控訴“防護措施天天失效”：開源界正遭受AI公司的暴擊

整理 | 燕珊

近日，多個開源社群紛紛抱怨，由於 AI 公司大規模抓取其程式碼託管、文件等公共資源，專案基礎設施一度面臨“近似 DDoS 級”訪問壓力，導致伺服器頻繁宕機或效能嚴重下降。SourceHut 創始人 Drew DeVault、GNOME、KDE、Inkscape、Fedora 等多個社群都先後發出聲音，呼籲外界關注和正視這個問題。

LLM 爬蟲“氾濫成災”

三天前，開原始碼託管平臺 SourceHut 的創始人兼 CEO Drew DeVault 在其最新博文《Please stop externalizing your costs directly into my face》中，憤怒地描述了他近月來與 AI 模型爬蟲的“交鋒”經歷：

每週我們都會經歷數十次短暫的宕機，為了阻止這個數字繼續上升，我每天要審查我們的防護措施好幾次。即使我偶爾想抽空做點別的工作，也常常不得不在所有報警響起時立馬放下手頭事務，因為現有的防護措施又失效了。SourceHut 有好幾個高優先順序的任務已經因此被耽擱了數週甚至數月。

他指出，這些抓取工具並不遵守“robots.txt”協議，也不會尊重流量限制，甚至會訪問極耗費系統資源的連結，比如 git blame、所有 Git 日誌頁面等。更棘手的是，這些流量來自數以萬計的 IP 地址、隨機化的 User-Agent 來“偽裝”成普通使用者流量，給識別與攔截帶來了極大難度。

DeVault 在博文中坦言，近期他自己有 20%～100% 的工作時間都被迫花在與這些 LLM 爬蟲的對抗上：“我們有好幾個高優先順序任務被耽擱了數週甚至數月，因為每次想回到正常的開發或管理上，都被伺服器警報打斷——我們的防禦措施又失效了。”

同時，他指出，其社群的真實使用者也會因此受到影響——“我們的防護策略無法可靠地區分真實使用者與爬蟲。”

開源界的集體困境

DeVault 特別提到，他的“系統管理員朋友們”其實都遭遇了相同的困擾，LLM 爬蟲令所有開源專案措手不及。每次他跟朋友出去喝酒或吃飯，只要有幾個系統管理員在場，大家很快就會開始抱怨這些爬蟲，然後互相打聽對方有沒有找到什麼“一勞永逸”的解決方案。

的確，其他開源社群也面臨相似情況。最近 KDE 大量“偽裝成 Microsoft Edge”瀏覽器的惡意流量或爬蟲；GNOME 自去年 11 月以來就一直遇到問題，被迫實施臨時流量限制，限制未登入使用者檢視合併請求和提交記錄，大幅影響了真實的匿名訪客。

GNOME 最終部署了一種名為“Anubis”的防禦工具。該系統會向訪問者提出一次 Proof-of-Work 挑戰，要求瀏覽器先完成一定量的計算再呈交結果。只有闖關成功，才能訪問網站。然而，這卻難免波及普通使用者。如果某個連結在聊天室或新聞社群裡被頻繁點選，系統可能瞬間提高難度，導致普通使用者的等待時間可能長達數十秒乃至數分鐘。

在 Mastodon 上，據 GNOME 管理員所分享的資料，在某個時段的 2.5 小時裡，他們總共收到約 8.1 萬次請求，僅有 3% 成功透過 Anubis 驗證，其餘 97% 被判定為爬蟲。“雖然 Anubis 阻止了爬蟲洪流，但也給正常使用者帶來不少困擾。”

不止 GNOME 與 KDE。Fedora 社群為保持其 Pagure 程式碼託管平臺的穩定，不得已遮蔽了大量可疑 IP 段。由於某些 AI 爬蟲來自同一國家的海量 IP，Fedora 一度只好封禁整個國家（如巴西）的訪問請求，這種“一刀切”也引發社群使用者對誤傷的擔憂。

Inkscape 專案上週也表示，大量 AI 爬蟲使用“假冒瀏覽器 UA”或完全無視網站防爬協議。為了維持網站可用性，相關維護者被迫持續擴充“Prodigius”級別的黑名單；甚至 Frama 軟體公司的 BigGrizzly 也曾被一個惡意的 LLM 爬蟲淹沒，並建立了一個包含 46 萬個可疑 IP 的列表。

對此進行更全面的嘗試是“ai.robots.txt”專案，這是一個與 AI 公司相關的網路爬蟲的開放列表。他們提供了一個實施 Robots Exclusion Protocol 的 robots.txt 和一個 .htaccess 檔案，該檔案在收到列表中任何 AI 爬蟲的請求時都會返回錯誤頁面。

開源去中心化社群 Diaspora 的維護者 Dennis Schubert 幾個月前吐槽了相似的經歷，他說“檢視流量日誌讓他非常生氣”。

他當時提到，過去 60 天內 Diaspora 的網站與文件服務共收到 1130 萬次請求，其中近 70% 來自 OpenAI 的 GPTBot、Amazonbot、ClaudeBot 等 AI 爬蟲。

“它們不僅反覆抓取同樣的頁面，還爬到維基的每條歷史編輯記錄、每次 diff 修改上——甚至每 6 小時就要來一遍！它們對 robots.txt 完全視而不見，頻繁換 IP、偽造普通瀏覽器 UA，搞得伺服器效能飆升、宕機頻發。”

Schubert 指出，對比之下，Googlebot、Bingbot 等傳統搜尋引擎抓取非常剋制，佔比僅 0.14%，不會一遍又一遍地獲取相同“毫無價值的內容”。他表示，這些 “不守規矩的 LLM 爬蟲簡直對整個網際網路發動了 DDoS 攻擊”，讓運維人員疲憊不堪。

開源平臺 Read the Docs 去年曾公開過這樣一個數字，遮蔽所有 AI 爬蟲後，其網站流量從每天 800GB 直接降至 200GB，節省了約 1500 美元 / 月的運營成本，“可見這類流量之巨”。

呼籲更多關注與自律

對 DeVault 來說，這已經不是第一次被迫替大機構或投機分子“背鍋”。他在博文最後抨擊了包括加密貨幣、谷歌團隊、矽谷 AI 公司在內的多方，認為他們統統在把自己的成本“推給別人”，而這一切都在消耗社會公共資源，尤其是像 SourceHut 這樣的中小型平臺。

“我已經受夠了，這些人一個勁兒地把成本轉嫁到我臉上，讓我疲於應對。要麼去幹點對社會有益的事，要麼就滾遠點，別來動我的伺服器。在系統管理員們集體革命之前，拿你們那些數以百億計的資金為公眾做點好事吧。”DeVault 寫道。

總的來看，開源社群似乎進退兩難。一方面，開源文化強調開放協作，不可能對普通使用者關閉文件、倉庫訪問；另一方面，社群往往沒有雄厚的商業贊助來維持昂貴的頻寬和伺服器，現階段也只能依賴 PoW、黑名單、甚至大範圍封禁等手段來暫時緩解問題。

面對來勢洶洶的 AI 爬蟲浪潮，各大開源專案都在積極探索更高效、對普通使用者更友好的解決方案。但無論如何，這都會是一個長期博弈的過程，涉及到行業規範、AI 爬蟲自律以及社群共同行動。

參考連結：

https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/

https://drewdevault.com/2025/03/17/2025-03-17-Stop-externalizing-your-costs-on-me.html

https://pod.geraspora.de/posts/17342163

宣告：本文為 InfoQ 整理，不代表平臺觀點，未經許可禁止轉載。

當大模型接管程式設計：NASA 瘋狂的“反人類”程式設計要求，為何仍被奉為行業聖典？

英偉達軟硬體“雙拳出擊”：Blackwell Ultra、Rubin 晶片炸場，開源Dynamo讓R1 token生成暴漲40倍

用“千行程式碼”作弊軟體騙過大廠！00後拿4個頂級Offer後瀟灑拒掉：技術面試早該淘汰了？

直播預告

🚀應屆生親測 DeepSeek 等 5 大 AI 寫論文！1 小時速成框架 / 文獻 / 排版✅

🔥3 月 21 日 19 點直播：AI 協同指南｜工具包福利

⏰DDL 急救！掃碼預約領《DeepSeek 知識庫》，開播提醒不遲到👇

dignews.cc

每週宕機數十次，CEO控訴“防護措施天天失效”：開源界正遭受AI公司的暴擊

相關文章

AI爬蟲肆虐，OpenAI等大廠不講武德！開發者打造「神級武器」宣戰

AI領域的全面戰爭，從AI爬蟲毀滅網際網路開始…

開源/自有軟體伺服器正在被AI破壞大約97％的請求/流量都是爬蟲而非真人

每週宕機數十次，開源界正遭受AI公司的暴擊

多款AI搜尋引用錯誤率高達60％，付費版本錯誤率更高

Python爬蟲接入DeepSeek，太強了！

AI搜尋風靡，但高達60％引用出錯！付費版甚至更糟

DeepSeek重新整理全球AI格局；50美元模型蒸餾術；美國公司們宣佈8000億美元算力投資丨AI月報

小米：雷軍SU7事故公眾信系偽造；任天堂官宣Switch2，3400元；OpenAI發AIAgent評測基準|極客早知道

難道是沒流量了？知乎不再強制使用者登入現未登入也能檢視全文