Cloudflare推出AI迷宮生成海量無關內容將爬蟲放進迷宮裡避免抓取網站

#人工智慧 Cloudflare 推出 AI 迷宮功能,透過生成海量無關內容將爬蟲放到迷宮裡避免抓取網站正常內容。該功能算是以毒攻毒,檢測到異常抓取的爬蟲時就把爬蟲放到迷宮裡隨便抓取,反正這些內容不是目標網站的,也不會消耗目標網站的硬體和頻寬資源。開啟方法:https://ourl.co/108486
網路服務提供商 Cloudflare 此前已經推出人工智慧爬蟲識別和攔截程式,避免主要目的是抓取資料的 AI 爬蟲透過高頻次抓取浪費網站頻寬和硬體資源,也可以避免因為 AI 爬蟲高頻次抓取影響網站的正常運營。
但很多 AI 爬蟲都偽裝成正常的客戶端 UA 進行抓取,所以僅僅靠爬蟲自己攜帶的 UA 難以判斷是否是爬蟲以及能否成功攔截,所以 Cloudflare 在此基礎上推出名為 AI Labyrinth 的新功能。
這個新功能可以稱作是 AI 迷宮,其主要功能是透過人工智慧生成海量無關內容,在檢測到存在異常的爬蟲時,就將爬蟲引導到這個人工智慧生成的蜜罐中,這些內容與網站無關,藉此消耗這些爬蟲的資源。

統計資料顯示在 2024 年秋季 Facebook 排名前 20 的帖子中有 4 篇是 AI 生成的,Medium 平臺大約有 47% 的內容是 AI 生成的,而 Cloudflare 每天要收到 AI 爬蟲發出的超過 500 億個請求。
為了解決被 AI 爬蟲浪費的伺服器資源,Cloudflare 建立這個 AI 迷宮功能算是以毒攻毒,AI 爬蟲主要想要抓取人類撰寫的資料來訓練 AI,Cloudflare 則只給這些爬蟲投餵 AI 生成的內容。
AI 迷宮的工作原理是這樣的:
Cloudflare 使用 Workers AI 和開源模型來建立海量有關不同主題的獨特 HTML 頁面,這些內容頁面透過預生成管道提前生成並存儲在 Cloudflare R2 儲存庫中。
但為了避免虛假內容汙染 AI 並造成虛假內容在網際網路上傳播,Cloudflare 給 AI 爬蟲投餵的資料也是真實並且與科學事實相關,只是與被抓取的網站不相關或者不是專有的。
防止影響 SEO 和真人訪問:
Cloudflare 生成的頁面透過技術手段進行隱藏,首先這些內容絕對不會被真人訪問到,其次 Cloudflare 做好元資料用來禁止真正的搜尋引擎爬蟲抓取,因此也不會影響網站正常的 SEO。
當檢測到異常的抓取時 Cloudflare 才會動用 AI 迷宮並將爬蟲引導到迷宮中,已識別且被網站允許的 AI 爬蟲以及搜尋引擎的爬蟲都可以正常抓取內容。
目前 AI 迷宮功能已經面向所有使用者開放,無論是否付費都可以開啟,具體路徑是 Cloudflare 控制檯、網站、安全性、自動程式、AI Labyrinth。

相關文章