Cloudflare推出AI迷宮生成海量無關內容將爬蟲放進迷宮裡避免抓取網站

#人工智慧 Cloudflare 推出 AI 迷宮功能，透過生成海量無關內容將爬蟲放到迷宮裡避免抓取網站正常內容。該功能算是以毒攻毒，檢測到異常抓取的爬蟲時就把爬蟲放到迷宮裡隨便抓取，反正這些內容不是目標網站的，也不會消耗目標網站的硬體和頻寬資源。開啟方法：https://ourl.co/108486

網路服務提供商 Cloudflare 此前已經推出人工智慧爬蟲識別和攔截程式，避免主要目的是抓取資料的 AI 爬蟲透過高頻次抓取浪費網站頻寬和硬體資源，也可以避免因為 AI 爬蟲高頻次抓取影響網站的正常運營。

但很多 AI 爬蟲都偽裝成正常的客戶端 UA 進行抓取，所以僅僅靠爬蟲自己攜帶的 UA 難以判斷是否是爬蟲以及能否成功攔截，所以 Cloudflare 在此基礎上推出名為 AI Labyrinth 的新功能。

這個新功能可以稱作是 AI 迷宮，其主要功能是透過人工智慧生成海量無關內容，在檢測到存在異常的爬蟲時，就將爬蟲引導到這個人工智慧生成的蜜罐中，這些內容與網站無關，藉此消耗這些爬蟲的資源。

統計資料顯示在 2024 年秋季 Facebook 排名前 20 的帖子中有 4 篇是 AI 生成的，Medium 平臺大約有 47% 的內容是 AI 生成的，而 Cloudflare 每天要收到 AI 爬蟲發出的超過 500 億個請求。

為了解決被 AI 爬蟲浪費的伺服器資源，Cloudflare 建立這個 AI 迷宮功能算是以毒攻毒，AI 爬蟲主要想要抓取人類撰寫的資料來訓練 AI，Cloudflare 則只給這些爬蟲投餵 AI 生成的內容。

AI 迷宮的工作原理是這樣的：

Cloudflare 使用 Workers AI 和開源模型來建立海量有關不同主題的獨特 HTML 頁面，這些內容頁面透過預生成管道提前生成並存儲在 Cloudflare R2 儲存庫中。

但為了避免虛假內容汙染 AI 並造成虛假內容在網際網路上傳播，Cloudflare 給 AI 爬蟲投餵的資料也是真實並且與科學事實相關，只是與被抓取的網站不相關或者不是專有的。

防止影響 SEO 和真人訪問：

Cloudflare 生成的頁面透過技術手段進行隱藏，首先這些內容絕對不會被真人訪問到，其次 Cloudflare 做好元資料用來禁止真正的搜尋引擎爬蟲抓取，因此也不會影響網站正常的 SEO。

當檢測到異常的抓取時 Cloudflare 才會動用 AI 迷宮並將爬蟲引導到迷宮中，已識別且被網站允許的 AI 爬蟲以及搜尋引擎的爬蟲都可以正常抓取內容。

目前 AI 迷宮功能已經面向所有使用者開放，無論是否付費都可以開啟，具體路徑是 Cloudflare 控制檯、網站、安全性、自動程式、AI Labyrinth。

dignews.cc

Cloudflare推出AI迷宮生成海量無關內容將爬蟲放進迷宮裡避免抓取網站

相關文章

AI領域的全面戰爭，從AI爬蟲毀滅網際網路開始…

AI爬蟲肆虐，OpenAI等大廠不講武德！開發者打造「神級武器」宣戰

AI早知道｜阿里開源全新多模態模型Qwen2.5-VL-32B；DeepSeek-V3模型釋出

DeepSeek重新整理全球AI格局；50美元模型蒸餾術；美國公司們宣佈8000億美元算力投資丨AI月報

小米：雷軍SU7事故公眾信系偽造；任天堂官宣Switch2，3400元；OpenAI發AIAgent評測基準|極客早知道

開源/自有軟體伺服器正在被AI破壞大約97％的請求/流量都是爬蟲而非真人

每週宕機數十次，開源界正遭受AI公司的暴擊

每週宕機數十次，CEO控訴“防護措施天天失效”：開源界正遭受AI公司的暴擊

Cloudflare上線.AI域名註冊註冊/續費價70美元較多數平臺都便宜

難道是沒流量了？知乎不再強制使用者登入現未登入也能檢視全文