偽造 CEO 語音騙走 712 萬元,語音版 Deepfake 詐騙案正在興起

從圖像、影片到語音,DeepFake 正在建構一個虛假的世界。

我們可以看到,在馬斯克的這段演講影片中,Deepfake 的換臉技術幾乎達到人眼無法區別的地步。

不過,隨著技術不斷成熟,Deepfake 卻帶來隱藏的「虛假」風險。自從 2017 年,一位網友將女星蓋兒‧加朵和成人電影女主做了人臉交換,偽造了一段色情影片後,有關濫用 Deepfake 製造虛假、不良內容的影片一直充斥於網路。

為了應對 Deepfake 換臉技術帶來的種種風險,2019 年,Facebook 斥巨資發起「Deepfake 檢測挑戰賽」,這項挑戰賽一直延續到現在,其辨識準確率已經達到 82.56%。

不過,令人擔憂的是,有人又將虛假的矛頭指向 Deepfake 語音。有報導稱,一家英國能源公司被敲詐了 24 萬美元(約台幣 712 萬元),其背後正是利用語音版 Deepfake 技術。

攻擊者假冒公司 CEO 製造了一段虛假語音,以電子郵件的方式發給公司下屬員工,要求其向指定帳戶完成匯款。員工稱,假冒語音中的音調、口吻和口音都與公司 CEO 頗為相似,對他產生了誤導乖乖轉帳。其實,諸如此類的詐騙案件已經發生了不只一起。

對此,安全諮詢公司 Nisos 在分析過偽造語音後發出警告,Deepfake 語音詐騙正在興起,必須提高警惕。

Deepfake 語音複製曝光

最近一家科技公司也收到一份自稱公司 CEO 的語音郵件,要求「立即提供協助以完成緊急商業交易」。不過,這次員工發現了語音中的異常,詐騙沒有成功。

可以聽出這段語音的品質並不是很好,有點機械、不連貫,但員工說口音和音調還是大致相似的。

Deepfake 語音複製的品質,主要取決於假冒對象的錄音,數量越多、品質越好,偽造的逼真度也就越高。對於公司高層而言,他們在電話會議、YouTube、社交媒體或者 TED 演講中的錄音很容易取得,也由此成為了詐騙集團的偽造對象。

隨後,該公司將這段偽造的語音檔交給一家安全諮詢公司 Nisos。Nisos 使用一款名為 Spectrum3d 的音頻頻譜圖工具,分析了 Deepfake 的偽造語音。

▲ Deepfake 音頻頻譜圖。

可以看到頻譜圖中的音調幾乎一直處於峰值狀態,這與我們日常講話的高低音轉換顯然有很大差異,另外,研究人員稱,他們在語音中沒有發現任何噪音的痕跡,顯然說明這段語音是透過電腦軟體合成的。

與正常人聲的頻譜圖對比來看,結果更是一目了然,音高頻率、幅度更加自然,同時也能夠檢測數量微弱的背景噪音。

▲ 正常人聲頻譜圖。

由於未獲取足夠的樣本,詐騙集團採用的是何種 Deepfake 軟體合成技術還不得而知。不過,攻擊者為製造高逼真度的詐欺語音,需要滿足以下幾個條件:

  • 捕獲幾乎沒有背景噪音的高品質語音。
  • 在無法通話的場景下,分階段發送語音進行溝通。
  • 以留言的方式進行,避免面對面交談。

如何辨別語音詐欺

雖然這次 Deepfake 偽造語音存在明顯瑕疵,但只要獲取高品質的語音樣本,其偽造程度還是能夠以假亂真。

另外,Nisos 公司表示,語音的深度偽造不僅與人的語氣有關,還與特定的言語舉止有關。但是這個目標已經能夠實現,比如攻擊者會採用會採用類似於 Yandex 反向圖像搜尋的語音工具,透過大量樣本的建構和訓練,將原始語音轉換為目標語音的模型。

目前語音詐欺案件已經陸續出現,隨著 Deepfake 軟體的使用更加容易,語音合成處理的品質越來越高,此類詐欺案件也會愈加普遍。

不過,Nisos 公司強調由於技術的局限性,此類詐欺事件還是很容易識破的,比如透過電話溝通再度確認。

Deepfake 技術無法實現連貫的語音通話,因此攻擊者通常採用語音郵件的形式與對方溝通。另外,也可以透過詢問一些只有內部才知道的事情來確認對方的身分。此外,攻擊者會盜用公司高級管理人員的 email 來與下屬員工進行溝通,因此,加強 email 安全防護也是非常必要的。

此外,除了經濟詐騙外,攻擊者還可能透過引導員工登入不安全網站等行為,對公司的網路或物理資產造成破壞。

(本文由 雷鋒網 授權轉載;首圖來源:pixabay)原文出處: 偽造 CEO 語音騙走 712 萬元,語音版 Deepfake 詐騙案正在興起 雷鋒網