AI爬蟲肆虐，OpenAI等大廠不講武德！開發者打造「神級武器」宣戰

2025-09-19 05:19 矽星人Pro

文章轉載於新智元

AI網路爬蟲是網際網路上的「蟑螂」，幾乎所有軟體開發者都會這樣認為的。

「爬蟲」是一種網路自動程式，用來瀏覽網際網路、獲取網頁內容。

而在AI時代，爬蟲的威脅到了讓開發者不得不封鎖掉某個地區所有人的訪問。

Triplegangers是一家僅僅由七名員工運營的公司，他們花費十多年時間建立了自稱是網路上最大的「人類數字替身」的資料庫，即從實際人體掃描得到的3D影像檔案。

2025年2月10日，公司CEO Oleksandr Tomchuk突然發現他們公司的電商網站「崩了」。

「OpenAI使用了600個IP來抓取資料，日誌還在分析中，可能遠不止這些」，Tomchuk最終發現，導致他們網站崩潰的元兇竟然是OpenAI的爬蟲機器人。

「他們的爬蟲正在壓垮我們的網站，這就是一次DDoS攻擊！」

OpenAI沒有回應此次事件，該事件過去僅僅不到兩個月，但AI爬蟲機器人仍然活躍在網路上。

1

AI爬蟲不遵循「古老傳統」，阻止他們是徒勞的

其實爬蟲最早並不是AI時代為了獲取訓練語料而誕生的。

早在搜尋引擎時代，就已經有「搜尋引擎機器人」，那個「古老年代」的機器人還約定俗成的遵循各個網站上會存在的一份檔案——robots.txt。

這個檔案告訴了機器人不要爬取哪些內容，哪些內容可以爬取。

但這份傳統隨著網際網路的發展似乎已經被遺忘，爬蟲和反爬蟲也演變為一場攻防戰役。

而到了如今的「大模型時代」，網際網路的資訊已經被LLMs吞噬一空。

阻止AI爬蟲機器人是徒勞的，因為它們會撒謊、更改使用者代理、使用住宅IP地址作為代理來騙過網路「防守」。

「他們會不斷地抓取你的網站，直到它崩潰，然後還會繼續抓取。他們會點選每一個頁面上的每一個連結上，一遍又一遍地檢視相同的頁面」，開發者在帖子中寫道。

AI機器人除了「免費」爬取資訊外，還會額外增加所爬網站企業的運營費用——在這個雲服務的時代，幾乎所有被爬取的企業都在雲上，大量的爬蟲流量不僅無法帶來收益，還會增加他們的雲伺服器賬單。

更加無法預料的一點是，對於那些被「白嫖」的網站來說，甚至確切的知道被白嫖了哪些資訊。

一些開發者決定開始以巧妙且幽默的方式進行反擊。

1

程式設計師打造爬蟲的「神之墓地」

FOSS開發者Xe Iaso在部落格中描述了AmazonBot如何不斷攻擊一個Git伺服器網站，導致DDoS停機。

所以Iaso決定用智慧反擊，他構建了一個名為Anubis的工具。

Anubis是一個工作量證明檢查的反向代理，請求必須透過該檢查才能訪問Git伺服器。

它阻止機器人，但允許人類操作的瀏覽器透過。

Iaso關於Anubis工作原理的簡單介紹。

本質上，Anubis確保的是「真實人類使用的瀏覽器」在訪問目標網站，而不是AI爬蟲——除非這個爬蟲偽裝的足夠「先進」，就像透過圖靈測試一樣。

有趣的部分是：Anubis是埃及神話中引導死者接受審判的神的名字。

「Anubis稱量了你的靈魂（心臟），如果它比一根羽毛重，你的心臟就會被吃掉，然後你就徹底死了」。

這個專案的名字帶有諷刺意味，在自由開源軟體社群中像風一樣傳播開來。

Iaso在3月19日將其分享到GitHub上，僅幾天時間就獲得了2000個星標、20位貢獻者和39個分支。

1

用「復仇」的方式防禦AI爬蟲

Anubis的迅速流行表明Iaso的痛苦並非個例。

事實上，還有很多故事：

SourceHut的創始人兼CEO Drew DeVault描述說，他每週要花費「20% 到 100% 的時間來大規模緩解過於激進的 LLM 爬蟲」，並且「每週經歷數十次短暫的服務中斷」。
Jonathan Corbet，一位著名的FOSS開發者，他運營著Linux行業新聞網站 LWN，警告稱他的網站正受到「來自 AI 抓取機器人的 DDoS 級別的流量」影響而變慢。
Kevin Fenzi，龐大的Linux Fedora專案的系統管理員，表示AI抓取機器人變得如此激進，他不得不封鎖整個巴西的訪問。

除了像Anubis一樣「衡量」網路請求者的靈魂外，其他開發者認為復仇是最好的防禦。

幾天前在Hacker News上，使用者xyzal建議用「大量關於喝漂白劑好處的文章」或「關於感染麻疹對床上表現的積極影響的文章」來載入robots.txt禁止的頁面。

這樣AI爬蟲獲取的資訊都是這種大量且無用的「替代品」。

「我們認為需要讓機器人訪問我們的陷阱時獲得負的效用值，而不僅僅是零價值」，xyzal 解釋說。

一月份，一位名為Aaron的匿名創作者釋出了一個名為Nepenthes的工具，其目的正是如此。

它將爬蟲困在一個無盡的虛假內容迷宮中，無法像爬蟲「主人」返回任何資訊。

而作為網友心目中的「賽博菩薩」的Cloudflare，也許是提供多種工具來抵禦AI爬蟲的最大商業玩家，上週釋出了一個名為AI Labyrinth的類似工具。

它的目的是「減慢、迷惑並浪費不遵守禁止爬取指令的AI爬蟲和其他機器人的資源」，Cloudflare 在其部落格文章中描述道。

「當AI爬蟲跟隨這些連結時，它們會浪費寶貴的計算資源處理無關內容，而不是提取合法網站資料。這大大降低了它們收集足夠有用資訊以有效訓練模型的能力」。

相比起反擊，另一種觀點是「Nepenthes有一種令人滿意的正義感，因為它向爬蟲提供無意義的內容並汙染它們的資料來源，但最終Anubis是對網站有效的解決方案」。

拒絕或者反擊也許都不是最佳的途徑。

DeVault也公開發出了一則誠懇的請求，希望有一個更直接的解決辦法：「請停止將LLMs或AI影像生成器任何這類垃圾合法化。懇求停止使用它們，停止談論它們，停止製造新的，就這麼停下」。

但是，想讓LLM廠商主動停止爬蟲這種情況的可能性幾乎為零。

畢竟AI的「智慧」都來自於不斷「吞噬」網際網路上的各種資料和資訊。

不論是給禁止AI爬蟲訪問網站、給AI「投餵垃圾」還是將AI爬蟲拉入「無線虛空」。

開發者們，尤其是在開源軟體領域，正在用智慧和「極客幽默」進行反擊。

如果你是網站管理者和開發者，你會如何「出招」？

參考資料：

https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/

點個“愛心”，再走吧

相關文章

AI領域的全面戰爭，從AI爬蟲毀滅網際網路開始…

AI領域的全面戰爭，從AI爬蟲毀滅網際網路開始…

開源/自有軟體伺服器正在被AI破壞大約97％的請求/流量都是爬蟲而非真人

開源/自有軟體伺服器正在被AI破壞大約97％的請求/流量都是爬蟲而非真人

每週宕機數十次，CEO控訴“防護措施天天失效”：開源界正遭受AI公司的暴擊

每週宕機數十次，CEO控訴“防護措施天天失效”：開源界正遭受AI公司的暴擊

每週宕機數十次，開源界正遭受AI公司的暴擊

每週宕機數十次，開源界正遭受AI公司的暴擊

多款AI搜尋引用錯誤率高達60％，付費版本錯誤率更高

多款AI搜尋引用錯誤率高達60％，付費版本錯誤率更高

AI搜尋風靡，但高達60％引用出錯！付費版甚至更糟

AI搜尋風靡，但高達60％引用出錯！付費版甚至更糟

Python爬蟲接入DeepSeek，太強了！

Python爬蟲接入DeepSeek，太強了！

DeepSeek重新整理全球AI格局；50美元模型蒸餾術；美國公司們宣佈8000億美元算力投資丨AI月報

DeepSeek重新整理全球AI格局；50美元模型蒸餾術；美國公司們宣佈8000億美元算力投資丨AI月報

難道是沒流量了？知乎不再強制使用者登入現未登入也能檢視全文

難道是沒流量了？知乎不再強制使用者登入現未登入也能檢視全文

小米：雷軍SU7事故公眾信系偽造；任天堂官宣Switch2，3400元；OpenAI發AIAgent評測基準|極客早知道

小米：雷軍SU7事故公眾信系偽造；任天堂官宣Switch2，3400元；OpenAI發AIAgent評測基準|極客早知道

Copyright © 2025 | WordPress Theme by MH Themes