相信大家在登入網站時,一定都點選過「我不是機器人」的驗證方塊,或是被要求辨識扭曲的文字、數字的圖片。這個名為 reCAPTCHA 的驗證系統,原本是設計用來區分人類與機器人的測試,但最新研究顯示,這個系統可能另有隱情。
在 2007 年時,卡內基梅隆大學(Carnegie Mellon University)的 Luis von Ahn 發明了 reCAPTCHA,通常被用於阻擋網路上的那些不良軟體。
假如你要在網路上購買車票,那麼你需要看一組扭曲的字母,並輸入正確內容。這樣系統可以將你判定為人類,而非機器人。這就是所謂的 CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart),全名為「全自動區分電腦和人類的公開圖靈測試」。
早已被機器人輕易破解,但背後商業價值很可觀
根據加州大學爾灣分校前電腦安全研究員安德魯・西爾斯(Andrew Searles)博士的研究,這個早已可以被機器人輕易破解的系統,仍被 Google 持續使用的真正原因,是為了追蹤用戶行為並收集個人資料。
(編按:Google 在 2009 年收購了 reCAPTCHA。)
研究發現,當使用者面對 reCAPTCHA 時,Google 會廣泛監控用戶的 Cookie、瀏覽紀錄,甚至包括螢幕解析度、滑鼠移動軌跡等瀏覽器環境資訊。這些資料對廣告投放和用戶追蹤極具價值。資安專家 Chuppl 更直言,「reCAPTCHA 實際上是在對你的瀏覽器進行類似指紋辨識的動作,繪製你在網路上的所有行為地圖。」
另外,這項研究分析了超過 3,600 名用戶的使用數據,發現完成圖片驗證的時間比簡單勾選方塊多出 557%。更驚人的是,研究估計 reCAPTCHA 已經浪費了全球用戶總計 8.19 億小時的時間,相當於價值 61 億美元的損失。研究指出,reCAPTCHA 系統收集到的用戶數據價值驚人 —— 光是追蹤 Cookie 的商業價值就高達 8,880 億美元(約新台幣 28 兆元)。
完全無法迴避 Google 追蹤?
從歷史角度來看,reCAPTCHA 的發展頗具戲劇性。Luis von Ahn 原本是懷著善意開發這個系統,用來協助數位化書籍和報紙中電腦難以辨識的文字。這個創意如此成功,以至於《紐約時報》用它來數位化從 1851 年以來的 1,300 萬篇文章。
也就是說,它把防止機器人的安全需求,和辨識實體書裡的文字任務結合在一起,讓使用者在證明自己是人類的同時,也在無意識中協助完成了文字辨識的工作。這就是為什麼《紐約時報》能夠用這個系統來數位化它們龐大的歷史文章庫。
直至 2009 年,Google 收購了 reCAPTCHA,並將其用於 Google 圖書館的數位化和 Google 街景服務中道路標誌的辨識。然而到了 2025 年,儘管這個系統早已無法有效防止機器人入侵,但因為其龐大的商業價值,使用者仍然無法避免在網路上遇到它。