你的驗證碼又升級了：虐完人類不過癮，現在要收拾AI了

沒人喜歡被白嫖，整個網際網路都一樣。

就在昨天，網際網路基礎設施巨頭 Cloudflare 宣佈了一項新舉措：預設攔截所有未經許可的 AI 網路爬蟲（crawler）對網站內容的抓取。換言之，AI 公司想要抓取網頁資料訓練模型，必須先徵得網站所有者的同意，否則將被擋在門外。

這一系列舉措無疑在業界引起震動——對於需要全網搜刮資料的大模型開發廠商來說，免費任吃、資料不要錢的好日子，或許沒幾天能過了。

從 7 月初開始，每一個新接入 Cloudflare 的站點都會被詢問是否允許 AI 爬蟲訪問，其預設設定為拒絕，這等於給網站賦予了一鍵封禁 AI 抓取的權力。同時，Cloudflare 還推出了「按次付費爬取」的新模式，網站出版商可以選擇向 AI 爬蟲收取抓取內容的費用。

版權的戰爭打了這麼久，憑什麼這家公司一齣聲，就變得大件事了？

因為這是 Cloudfare，這是真正的網際網路「保安」。

驗證碼變形記：Cloudflare 如何攔住AI爬蟲

要理解 Cloudflare 此舉的意義，先得弄清它究竟在做什麼。

傳統的驗證碼（CAPTCHA）相信大家都不陌生：比如讓使用者選出圖片中所有的紅綠燈，或輸入扭曲的字元，以此區分「你是人還是機器人」。

一度，驗證碼演化到了一種複雜死人的程度，別說機器人，正常人也要花上好幾分鐘才能解完：

2022 年，Cloudflare 推出了 Turnstile 新一代的「無感驗證」方案。

當你開啟某些網站時，可能會看到一句「正在驗證瀏覽器，請稍候」，幾秒後自動放行——這背後就是 Turnstile 在檢查你的瀏覽器環境、滑鼠移動軌跡、頁面操作等資料，以確定訪問者是活生生的人類，而非指令碼程式。

Cloudflare 強調，這種驗證對真人幾乎是隱形的：沒有煩人的拼圖對齊和「找不同」大戰，甚至連多餘的點選都不需要。2023 年時他們還宣佈要徹底淘汰視覺謎題式驗證碼，承諾「不再以任何理由給任何人看亂七八糟的拼圖」。

的確，新一代的 Turnstile 驗證既保障了安全，又讓使用者幾乎無感知透過，可謂一個隱形的守門人，在真人使用者和自動程式之間築起一道分界線。

以往，驗證碼主要用來防範批次註冊、刷票、薅優惠券這種指令碼行為。但在 AI 大模型時代，驗證碼扮演的角色更加吃重，因為無處不在的 AI 爬蟲正試圖把整個網際網路當作自助餐。

各個 AI 爬蟲爬取的資料量. 圖片來自：Cloudfare

Cloudflare 的驗證系統，因此針對性地進行了升級：它結合行為分析、瀏覽器指紋和機器學習模型，來識別訪問者是正常使用者、良性爬蟲，還是偽裝的 AI 抓取工具。

例如，真人瀏覽網頁往往有自然的滾動和點選節奏，而批次爬蟲可能在毫秒間瘋狂翻頁；又比如正常瀏覽器會暴露一些標準特徵，而某些爬蟲為了隱藏身份可能偽造 UA 或關閉指令碼——這些細節都難逃 Cloudflare 的檢測演算法。

一旦判定某次訪問屬於未經授權的自動抓取，Cloudflare 要麼讓其陷入無限驗證環節，要麼乾脆直接阻斷。

技術攔不住，法庭再相見

Cloudfare 為什麼這個時候出來選邊站？

作為全球領先的 CDN 和網路安全服務商，Cloudflare 在 2023 年的報告中估計，它每天要應對萬億級別的網路請求，直接處理了全世界約 16%的網際網路流量，佔據著全球約五分之一的網路流量。

^{2024 年透過 IPv4 網際網路流向 Cloudflare 的流量聚合情況}

當這樣一個守門員開始對 AI 說「不」，其影響可想而知——而眼下，AI 廠商在版權戰爭中佔取上風，接二連三地贏下訴訟。

Anthropic 在使用了數百萬本書籍訓練模型後，被告上法庭。最近出爐的裁決認為，他們的行為符合「合理使用」的原則——這項法律原則允許在某些情況下，無需獲得所有者許可即可免費使用受版權保護的內容。

Meta 也打了勝仗。在應對作家們的集體訴訟中，加州聯邦法庭裁定 Meta 勝訴。不過，這個勝利來得比較僥倖，能勝主要是因為原告的「訴訟點」提得不夠好，在法律層面不夠有力，因此法官也表示「這項裁決並不代表 Meta 使用受版權保護的材料訓練其語言模型是合法的。」

找個好律師真是很重要啊。

在 AI 模型對網頁內容的胃口與日俱增的背景下，驗證碼系統儼然成為抵禦「大資料採集狂魔」的一道防線。如果沒有這層把關，AI 爬蟲們恣意爬網的行為不僅可能把網站伺服器搞得不堪重負（它們的高頻抓取甚至被比作 DDoS 攻擊），內容創作者的成果，更加是在不知情間就被拿去「喂 AI」。

如今有了 Cloudflare 的攔截機制，網站主至少有了一套可以用來自我保護的武器。

網際網路格局如何改變

對於普通網民來說，這場關於 AI 爬蟲的風波聽上去很「大」，但日常上網時的體驗並不會有明顯變化。

Cloudflare 的 Turnstile 驗證本就以「隱身」著稱，不會像舊式驗證碼那樣頻繁跳出來考你識別交通燈和樓梯。因此，即便現在把 AI 爬蟲視作眾矢之的，也不代表我們上網時要遭更多複雜考驗——Cloudflare 不會開倒車。

倒是那些試圖冒充人類的 AI 爬蟲們，恐怕要開始頭疼如何透過這道檢驗了——換句話說，驗證碼系統的功能重心已經悄然轉變。

以前，網站加驗證碼主要是為把關「指令碼」和惡意機器人，而現在 Cloudflare 明顯是在有意識別並阻擋特定的 AI 爬蟲。

有資料顯示，Cloudflare 的自動化識別技術可以準確地區分真人流量和 AI 爬蟲流量，這表明其驗證碼背後的目標已從一般性防護升級為專門針對 AI 資料抓取。可以說，原本驗證人機的「小考」，如今背後多了一層「篩查 AI」的使命。

在我們看來頁面秒開、一片風平浪靜時，Cloudflare 早已在背景裡盤查過：「這是正常人類，透過」；「那是 GPT 的爬蟲，攔下來」。這種場景，如今每一分每一秒都在網際網路的底層跑道上真實上演。

這樣高調封殺未授權 AI 爬蟲，表面理由是為內容創作者討回公道——畢竟 AI 公司過去一直在大吃特吃「霸王餐」，侵佔內容卻不給創作者流量和報酬，即便後者鬧到法庭上，也不見得能求得公道。

不過，與此同時，Cloudflare 順勢推出了讓 AI 公司付費爬取內容的功能和平臺，實行按次付費爬取 (Pay Per Crawl) 的方式。這項新功能允許特定出版商和創作者向 AI 公司收取訪問其內容的費用。參與者可以為單個爬蟲程式設定價格，從而完全控制其作品如何以及是否用於 AI 模型訓練。