加強式學習不夠！人類老師耳提面命、AI變得更聰明

OpenAI開發出來的AI機器人(AI Bot)只花了兩週的練習時間，透過「加強式學習(reinforcement learning」、就能從完全不會進化到能夠擊敗Dota 2(Defense of the Ancients 2)職業獎金累計超過70萬美元的職業選手(見圖)。不過，OpenAI若想在明年國際邀請賽五對五(5-vs-5)完整遊戲中擊敗人類、光靠加強式學習可能還不夠。

微軟AI官方部落格6月報導，AI專家相信加強式學習可以用來創造出能夠自行做出更多決策、更複雜事情的AI代理人，讓人類可以有更多時間從事具備更高附加價值的工作。微軟在今年初併購一家名為「Maluuba」的加拿大深度學習新創公司。

紐約時報8月13日報導，如果機器懂得玩「俠盜獵車手(Grand Theft Auto)」、研究人員相信它就能懂得開真正的車。如果AI學會用網頁瀏覽器以及其他常見的應用軟體，它就能學會並理解自然語言、甚至有辦法進行一段對話。谷歌(Google)、加州大學柏克萊分校等地早已透過這種方式讓機器人學會撿東西、開門等簡單任務。

OpenAI研究員Dario Amodei利用「賽船冠軍賽(Coast Runners)」電腦遊戲訓練AI Bot。這項遊戲的贏家不僅必須得到高分、還得通過終點線才行。結果，OpenAI訓練的AI Bot為了贏得高分拼命在原地打轉、忘了要穿越終點線。於是，Amodei跟同事Paul Christiano改良了程式碼，不僅讓AI透過數小時的嘗試錯誤(trial & error)熟悉任務，也讓人類老師可透過點選的方式讓AI知道什麼才是對的、就像父母教小孩一樣。

Dota 2完整遊戲中、兩隊的5個玩家從113位虛擬英雄中選取對隊伍最有利的人物，在一個戰場中賺取金錢購買具不同功能的物品、獲得經驗且提升英雄的特殊技能。在地圖的兩邊是兩隊的基地，玩家的最終目標就是摧毀對方的基地。

這個遊戲和台灣大多數人較熟悉的「英雄聯盟」相似，但Dota 2的角色在遊戲中有更多的玩法和變化。玩家不僅要有極快的反應時間，也要依照情勢判斷接下來的目標並預測敵人的位置。

根據麥肯錫全球研究院(MGI)發布的報告，全球最充滿活力的AI樞紐分別是矽谷、紐約、北京、波士頓、倫敦以及深圳。

＊編者按：本文僅供參考之用，並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦，讀者務請運用個人獨立思考能力，自行作出投資決定，如因相關建議招致損失，概與《精實財經媒體》、編者及作者無涉。

MoneyDJ 新聞 2017-08-14 14:53:06 記者賴宏昌報導