難辨真假!谷歌新技術,機器語調超自然,與人無異

谷歌人工智慧(AI)技術再進化,該公司宣布能讓機器人說話語調不再生硬,聽來和人類難辨真假。

PhoneArena、Quartz、每日郵報報導,谷歌部落格宣稱(見此),開發出第二代文字轉語音系統「Tacotron 2」,能讓機器說話聲音沒有怪異、不自然之處,聽來幾乎和人類一模一樣。機器會依據語意學決定正確發音,文章略有拼寫錯誤、也能順利讀出,而且就連繞口令都難不倒。

谷歌人員表示,外界認為Tacotron 2表現類似專業人員。民眾給Tacotron 2的平均意見分數(Mean Opinion Score)是4.53分,只略低於專業人員錄製聲音的4.58分。

Tacotron 2包括兩個深度類神經網路(見圖),第一個網路會把文字轉成聲譜圖,用圖像表達音頻,接著把聲譜圖輸入WaveNet系統中,機器會照圖發出相應聲音。(Tacotron 2與人類聲音對照點此)

不過谷歌表示,Tacotron 2仍有許多地方需要改進,包括無法讀出部分難字,無法即時合成音頻;機器聲音沒有情緒,不能傳達快樂或悲傷的感覺。

儘管如此,此一技術仍大有可為,目前谷歌虛擬語音助理已用WaveNet技術發聲,若能進一步採用Tacotron 2,可讓谷歌助理如虎添翼。

CNBC、每日郵報、英國金融時報2016年9月報導,谷歌母公司Alphabet旗下的DeepMind研發出新技術,能讓電腦合成語音和人類聲音的差距減少一半。DeepMind表示,長久以來,人機互動的夢想就是讓人類能和機器對話。

當前的語音合成技術錄製人們實際說話的聲音,存放在資料庫,需要時把字句打散重組,合成為完整句子,此種方式生成的語音聽起來生硬不自然,也缺乏感情。

DeepMind的「WaveNet」技術,能分析原始聲波,使用類神經網路(Neural Network)加以修正。此種技術需要龐大的運算能力,每秒要1.6萬個範本才能轉成數據、合成為語音。DeepMind表示,WaveNet生成的中英文,聽起來比谷歌現行技術自然許多。(全文見此)

*編者按:本文僅供參考之用,並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦,讀者務請運用個人獨立思考能力,自行作出投資決定,如因相關建議招致損失,概與《精實財經媒體》、編者及作者無涉。

MoneyDJ 新聞 2017-12-29 16:12:59 記者陳苓 報導