把人逼瘋的網頁驗證碼，浪費你幾百萬小時，卻讓谷歌穩賺8000億？

來源 | 把科學帶回家

撰文 | Skin

審校｜Ziv

想上網際網路，必須先做題。

你應該也在上網時遇到過各種各樣的“人機測試”，最早的比如識別出扭曲的字母和數字、選擇圖片上特定的字元、拼圖遊戲，隨著技術的發展，這種人機測驗也變得越來越花哨，給你上網增添了一些小樂趣（誤）或者小阻礙。這種人機測驗叫做CAPTCHA。關於CAPTCHA的知識請看：驗證碼越來越奇葩和抽象，我都無法證明自己是人類了！

不過，其中備受爭議的（並且有最多梗的）驗證系統，應該就是谷歌公司旗下的驗證碼系統reCAPTCHA了，網上經常能看到因為reCAPTCHA出的題太難，讓人氣到想退出網際網路的案例！而且如果答錯，就要重新驗證，在第N次嘗試後，甚至會拒絕你的上網請求……

事實上，當谷歌公司的reCAPTCHA在要求你“答題”時，你也在幫他們完成免費的資料標註工作。

請選出圖片中有云的方框（？｜cloudflare

reCAPTCHA的前身其實是卡內基梅隆大學（CMU）創辦的一個大規模協作任務，當時，人們需要完成一些古籍的數字化工作，但是古籍上有很多字母是OCR（光學自動識別）軟體難以識別的。所以人們就想，為什麼不讓廣大的網際網路使用者幫忙完成這件事情呢？於是就將這個任務傳給了各大網站，替換了原來的驗證碼圖片。

2009年，這個協作平臺被谷歌收購，繼續完成一些需要人工識別的任務，比如數字化了谷歌圖書和紐約時報的檔案。文字識別完了之後，人們還想再利用協作平臺做點什麼，於是2012年，reCAPTCHA就承擔了谷歌一項重要的任務：人工識別谷歌街景裡的資料，也就是我們大多數人在上網時都標記過的斑馬線、腳踏車、小轎車等。

有時候上網真的很無助｜imgur

這看起來是一個一舉兩得的行為，首先，CAPTCHA的本意是阻止機器人惡意入侵網站，保護使用者的上網活動，而reCAPTCHA又透過這個活動利用了網際網路使用者的時間來完成一些人工資料化任務，甚至增強自己的人工智慧。比如reCAPTCHA就能和谷歌街景互相增強，一方面讓驗證系統更安全有效，一方面也積累了人工標註的資料集讓谷歌地圖更準確。

後來，reCAPTCHA又發展出了V2和V3，有時候他會出現一個”我不是機器人”的複選框，當你勾選這個複選框時，reCAPTCHA會透過一些風險分析演算法，再判斷要不要讓你做題。還有一種是隱形的reCAPTCHA，你無須點選按鈕和做題，只需要讓游標移動來識別就行了。不過，如果識別到異常，那做題的花樣也會更多，甚至讓你完成一些複雜的拼圖任務。V3則會自動給使用者“打分”，但……打分的依據和標準又是什麼？谷歌公司只提到：“行為特徵”。

reCAPTCHA V2中有了直接點選複選框就能完成人機驗證的功能。

reCAPTCHA在發展的過程中也爭議重重。首先，它曾受到不少收集使用者隱私資料的質疑。2020年，網際網路基礎設施提供商Cloudflare提到，他們認為谷歌可能會利用reCAPTCHA提取的使用者資料來實現谷歌的廣告業務，於是將reCAPTCHA換成了更加安全的hCaptcha。而越來越“神秘”的reCAPTCHA像是一個“黑匣子”，使用者並不知道，自己在選擇複選框，或者做題、移動游標的過程中，會洩露哪些自己的資料。

除了reCAPTCHA外，你可能也遇到過hCaptcha，它有一些不同於reCAPTCHA的挑戰題目，非常不著調。除了題圖上的白雲馬，還有這種選裙子長度的

｜hCaptcha

另外，人們開始懷疑這種驗證方式真的有用嗎？一些研究不斷發現，不僅駭客可以攻破reCAPTCHA，機器人也變得越來越聰明瞭，雖然你還在螢幕面前辛辛苦苦做題，選斑馬線，但這項任務早就能被機器人完美取代了。

2023年，加州大學歐文分校的一項研究調查了3600多名網際網路使用者，不出所料，人們都覺得做圖形識別題很煩人。而在使用者實際應用這種驗證系統（大多為reCAPTCHA v2）的過程中，在做圖片題上花費的時間是勾選複選框的5.5倍，並且在評估安全性後，研究者得出結論：它除了收集你的資料（可能用於廣告等目的）之外，在安全性上已經沒有什麼用了。研究者還算了一筆賬，提到“reCAPTCHA 耗費了約 8.19 億小時的人力時間，相當於61億美元的工資，併為谷歌創造了鉅額利潤。僅跟蹤 cookie 一項，價值就估計為 8880 億美元。”

如今，人們也在嘗試其他代替驗證碼的方案，一些公司使用了Private Access Tokens。比如蘋果公司在自家瀏覽器Safari上，就會詢問你是否透過iCloud用這種私人Apple ID 賬戶的加密形式來驗證你在網際網路上是“真人”。這節省了許多“做題”的時間，但……目前使用它的範圍還太窄了，如今我們還是經常不得不在網際網路上花時間“做題”，做更多挑戰性更高的題目，但 reCAPTCHA浮現出的種種問題，也許說明它真的需要被漸漸取代了。