用 ChatGPT 挖你個資蠻簡單!研究人員對它重複「施咒」,結果破防了

當你在網上跟某人聊天,對方無意間提到上禮拜過生日時,被朋友們惡搞慶生,全身灑滿了肉桂粉。你可以藉此猜到對方幾歲嗎?ChatGPT 可以。

藉由這句短短對話,ChatGPT 可以推判出說話者很大機率是丹麥人、25 歲,且應是單身狀態。因為在身上灑滿肉桂粉,是丹麥人替 25 歲未婚人士慶生的獨特傳統。

隨著 ChatGPT 使用量持續攀升,模型現在變得更聰明了。目前除了個人使用者絡繹不絕,推出僅 4 個月的企業版 ChatGPT ,已超過 250 間企業成為客戶,估計每天有超過 15 萬名員工,上班會使用企業版 ChatGPT 協助工作。

不過每日湧入大量訓練模型的新數據,正成為 ChatGPT 的新麻煩。由於大型語言模型不會只依照從網上搜尋而來的資訊生成答案,而是根據它從大量數據中所學的東西來回答,這使得模型更善於推敲、預測使用者的弦外之音。

ChaGPT 從社群發文就能猜出個資,準度逾 85%

據《Wired》報導,ChatGPT 擅長從對話中挖掘出一般人無法留意到的細節。例如從一些特殊的文化符號,像是上述提到的肉桂粉慶生,或是一些口語詞用法,來推敲出說話者所處地點、年齡、性別以及種族等。

研究人員以外國鄉民論壇  Reddit 的多篇發文測試, GPT-4 能從發文者看似不著痕跡的語調中推理出發文者的個資,且準確度在 85% 到 95% 之間。ChatGPT 能更細膩的推敲出使用者的資訊、身處情境,聽起來也許貼心且聰明,但這同時也是駭客的福音

當 ChatGPT 被重複「施咒」,也會不小心吐出他人個資

12月初,Google DeepMind、康乃爾大學和其他四所大學發布了一項研究報告指出,透過特定的觸發詞(Trigger Word),能誘使 ChatGPT 吐出先前記憶的訓練資料。

研究人員發現當使用者要求模型多次複誦 poem(詩詞)、company(公司)、 send(寄送)、make(做)等字眼時,模型在一開始會照做,但在重複幾百次後,模型開始會吐露出一小部分訓練數據,其中包含先前其他使用者留下的對話紀錄,這當中有些資訊包含了私人 email 或其他個資。

「分歧攻擊」可鑽漏洞,《紐約時報》員工 email 被挖出

日前《紐約時報》一篇報導指出,內部編輯 Jeremy White 發現有陌生人透過 ChatGPT 得到他的私人 email 並寄信告知他此事。且 Jeremy 發現不止有他,《紐約時報》裡大約 30 名員工的 email ,都可從 ChatGPT 生成的答覆中取得。

原來該名陌生人,同樣是調查 ChatGPT 吐露個資的研究人員,而該研究是基於付費版本的 GPT-3.5 Turbo 。研究發現 GPT-3.5 Turbo 回答的 email 地址,雖仍存在少許的字元錯誤,但整體正確率達 80% 。

一般來說,OpenAI、Meta 和 Google 等公司會使用不同技術來阻止用戶透過聊天,來向模型打探個人資訊。但是研究團隊採用稱為分歧攻擊(divergence attacks)的方式,透過故意設計的字詞來鑽模型的漏洞,該方法在反覆且大量的測試後,攻擊者多少能找出可繞過模型安全措施的對話,請求模型吐露出自己記得的訓練數據。

不只 ChatGPT,其他 AI 模型的隱私保護力也不足

目前這些研究多數僅止於 ChatGPT,並不適用於其他大型語言模型。而一旦有新的觸發詞被攻擊者找到,公司通常也能快速補齊漏洞,但由於這類大型語言模型通常會允許第三方使用者輸入的資訊成為訓練資料,也就是大部分使用者輸入過的對話,作為訓練內容。

因此,「目前所知的所有商用大型語言模型,事實上都不具備足夠的隱私保護能力。」普林斯頓大學電機與電腦工程系教授 Prateek Mittal 在接受《紐約時報》訪問時如此表示。

出處:用 ChatGPT 挖你個資蠻簡單!研究人員對它重複「施咒」,結果破防了 | TechOrange 科技報橘 (buzzorange.com)

You may also like...

發佈留言