開源/自有軟體伺服器正在被AI破壞大約97％的請求/流量都是爬蟲而非真人

# 科技資訊開源 / 自由軟體基礎設施正在被人工智慧破壞，GNOME 桌面環境的官方網站在 2.5 小時內收到 81000 個請求，其中 97% 都是爬蟲而非真人。這些 AI 公司的爬蟲對資料非常飢渴，有時候不會遵守 robots.txt 協議，有時候會高頻併發抓取，給目標網站造成嚴重的壓力。檢視全文：https://ourl.co/108442

開源 / 自由軟體的官方網站或原始碼託管通常都是可以公開訪問的，但提供公開訪問是需要伺服器和頻寬支撐的，正常情況下真實使用者訪問不會給伺服器帶來多少壓力。

知名桌面環境 GNOME 管理員分享了關於伺服器流量的分析資料，資料表明在 2.5 小時內 GNOME 收到 81,000 個請求，其中只有 3% 透過 Anubi 的工作量證明，這意味著剩餘 97% 都是爬蟲而非真人訪問。

這些爬蟲通常不會遵守 robots.txt 協議，並且人工智慧公司的爬蟲擁有大量 IP 地址，這些公司透過這些 IP 地址併發向開源專案網站發出請求賺取網站或專案資料。

為了應對這些爬蟲消耗伺服器硬體資源和網路頻寬，GNOME 不得不使用名為 Anubi 的工作流證明系統用來攔截 AI 爬蟲程式，有時候這可能還會誤傷真實訪問的使用者。

GNOME 並不是唯一遭受 AI 爬蟲類似 DDoS 攻擊般瘋狂抓取的專案，KDE、Fedora、LWN、Frame Software 等也都在面臨同樣的問題：其網站和基礎設施絕大部分流量都來自 AI 爬蟲。

應對這種攻擊並沒有太好的辦法，管理員正在浪費大量時間、金錢和資源來抵禦這些飢餓的 AI 大軍 — 人工智慧公司都在瘋狂抓取資料用來訓練模型。

此前包括 OpenAI ChatGPT 和字節跳動的 Bytespider 都被發現高頻抓取網站導致網站近乎癱瘓，這些爬蟲有時候不遵守 robots.txt 協議，有時候則是併發海量請求導致伺服器癱瘓。

對這些 AI 公司來說這不會有任何損失，但被高頻抓取的網站就遭殃了，浪費伺服器資源的同時還必須想法設法識別和攔截這些爬蟲，最後只有網站損失慘重。

另外大多數已知的爬蟲例如 GPTBot 還比較容易透過 UA 進行攔截，還有大量的爬蟲不會公佈自己的名稱，而是模擬智慧手機使用者進行訪問，這種情況下靠 UA 識別和攔截非常麻煩。

dignews.cc

開源/自有軟體伺服器正在被AI破壞大約97％的請求/流量都是爬蟲而非真人

相關文章

AI爬蟲肆虐，OpenAI等大廠不講武德！開發者打造「神級武器」宣戰

AI領域的全面戰爭，從AI爬蟲毀滅網際網路開始…

70k！建議大家衝一衝這個薪酬被嚴重低估的方向！

每週宕機數十次，開源界正遭受AI公司的暴擊

每週宕機數十次，CEO控訴“防護措施天天失效”：開源界正遭受AI公司的暴擊

Python爬蟲接入DeepSeek，太強了！

一個新方向爆了，70k很穩！

100W，我入局了…

70k，確實可以封神了！

70k！一個門檻極低的新方向！