難辨真假！谷歌新技術，機器語調超自然，與人無異

谷歌人工智慧(AI)技術再進化，該公司宣布能讓機器人說話語調不再生硬，聽來和人類難辨真假。

PhoneArena、Quartz、每日郵報報導，谷歌部落格宣稱(見此)，開發出第二代文字轉語音系統「Tacotron 2」，能讓機器說話聲音沒有怪異、不自然之處，聽來幾乎和人類一模一樣。機器會依據語意學決定正確發音，文章略有拼寫錯誤、也能順利讀出，而且就連繞口令都難不倒。

谷歌人員表示，外界認為Tacotron 2表現類似專業人員。民眾給Tacotron 2的平均意見分數(Mean Opinion Score)是4.53分，只略低於專業人員錄製聲音的4.58分。

Tacotron 2包括兩個深度類神經網路(見圖)，第一個網路會把文字轉成聲譜圖，用圖像表達音頻，接著把聲譜圖輸入WaveNet系統中，機器會照圖發出相應聲音。(Tacotron 2與人類聲音對照點此)

不過谷歌表示，Tacotron 2仍有許多地方需要改進，包括無法讀出部分難字，無法即時合成音頻；機器聲音沒有情緒，不能傳達快樂或悲傷的感覺。

儘管如此，此一技術仍大有可為，目前谷歌虛擬語音助理已用WaveNet技術發聲，若能進一步採用Tacotron 2，可讓谷歌助理如虎添翼。

CNBC、每日郵報、英國金融時報2016年9月報導，谷歌母公司Alphabet旗下的DeepMind研發出新技術，能讓電腦合成語音和人類聲音的差距減少一半。DeepMind表示，長久以來，人機互動的夢想就是讓人類能和機器對話。

當前的語音合成技術錄製人們實際說話的聲音，存放在資料庫，需要時把字句打散重組，合成為完整句子，此種方式生成的語音聽起來生硬不自然，也缺乏感情。

DeepMind的「WaveNet」技術，能分析原始聲波，使用類神經網路(Neural Network)加以修正。此種技術需要龐大的運算能力，每秒要1.6萬個範本才能轉成數據、合成為語音。DeepMind表示，WaveNet生成的中英文，聽起來比谷歌現行技術自然許多。(全文見此)

＊編者按：本文僅供參考之用，並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦，讀者務請運用個人獨立思考能力，自行作出投資決定，如因相關建議招致損失，概與《精實財經媒體》、編者及作者無涉。

MoneyDJ 新聞 2017-12-29 16:12:59 記者陳苓報導