AI 偽造你聲音,連你爸媽都能騙!為何語音合成詐騙盛行?
《華盛頓郵報》報導,美國聯邦貿易委員會(Federal Trade Commission,FTC)最新統計顯示,2022 年詐騙案以「冒名詐騙」數量最多,這 3.6 萬次舉報約 5 千件為電話詐騙,損失金額估計超過 1,100 萬美元。然而,FTC 的助理總監麥克森(Will Maxson)無奈表示,電話詐騙很難追蹤,因為發話者可能藏身世界任何角落,光要確定哪個單位有管轄權就有難度。
▲ 冒名詐騙數量高居第一,損失金額則排第二,僅次投資詐騙。(Source:FTC)
AI驅動的電話詐騙
除了成本低廉,只要一支電話就能展開詐騙,人工智慧技術進步,也替詐騙集團的百寶袋添柴加薪。
2019年,詐騙集團利用人工智慧(AI)技術,合成仿冒英國能源企業母公司主管聲音,向屬下誆稱公司供應商需要資金,要求1小時內立刻匯款,詐得24.3萬美元。
這是近年第一起利用合成語音詐騙的案例,此技術稱為「深度聲音」(deepvoice),和深度偽造(deepfake)類似,都是利用深度學習技術習得人類語言/相片特徵,接著再製出相似內容,以假亂真。
2020年,某香港銀行經理接到客戶電話,他認得對方的聲音,客戶表示要收購企業,要求他核准一筆高達3,500萬美元轉帳。後來警方調查才知道,該客戶的聲音也是合成音,這起案例是記錄在案的第一起。
隨著技術發展,合成聲音的門檻降低。
數位鑑識學教授法理德(Hany Farid)表示,兩年前還需要長時間樣本,才能將人聲複製得唯妙唯肖,現在只要簡短30秒音檔,就能捕捉到聲音特徵,含年齡、性別、口音等。「現在如果抖音上傳30秒影片,其他人就能複製你的聲音」。
執法困難,完美風暴就此展開
柏金(Benjamin Perkin)的家庭就是合成語音詐騙案的受害者。某天,他的雙親接到一通自稱律師的來電,對方表示柏金發生車禍,撞死美國外交官,現關在監獄,需柏金雙親支付費用處理法律事宜。
聽起來很像典型的冒名詐騙,但律師馬上將電話轉交給柏金,柏金告訴父母很愛他們,希望父母籌到足夠的金錢。
雖然很不尋常,但聽起來毫無疑問就是柏金,所以柏金的父母就這樣匯款1.5萬美元。直到晚上柏金本人例行打電話給父母,才知道自己受騙了。
柏金不確定犯罪者如何取得自己的聲音,不過他曾在YouTube分享雪上摩托車影片,裡面就有他的聲音。
要合成他人聲音不是難事。新創公司ElevenLabs就提供相關服務,使用者只要上傳一段聲音,就能產出其他合成語音,試用免費,付費版月費從5美元到330美元。今年ElevenLabs在pre-seed輪就募得200萬美元,不過也受到批評,因有使用者合成名人的聲音,假裝他們說出某些沒說過的話。
ElevenLabs官網強調重視人工智慧道德(ethical AI),針對上述事件,還推文表示會設法阻止濫用,除了限制免費使用者合成語音,也會開發能偵測AI生產聲音的工具。
不只新創,科技巨頭微軟也開發類似模型VALL-E,號稱3秒鐘樣本就合成人類聲音,不過微軟也開發能偵測是否人工合成語音的模型,避免先進技術拿來做壞事。
▲ 微軟開發的VALL-E模型不受語言限制,也能合成中文聲音。(Source:VALL-E)
現有法律無法處罰AI合成語音業者
然而事發當下,受害者不太可能有精力打開偵測系統;對執法者來說,可能沒有足夠資源調查此類案件,且因為受害者無法提供聲音相似以外線索,更不利破案;現行法律也沒有辦法處罰提供AI合成語音服務的廠商。
面對此類案件該如何自保?麥克森的建議是其實不脫傳統應對電話詐騙方法:保持冷靜,先放下手機,聯絡當事人,確認對方現況;且撥號來源也可能是偽造,不要馬上相信對方;若對方要求用很難追蹤的支付方式如禮品卡或比特幣轉帳,就可懷疑是詐騙。
技術進步、成本低廉、軟體開發商無法可罰、警方沒有辦案著力點,法理德認為,所有元素都會構成完美風暴。