加強式學習不夠!人類老師耳提面命、AI變得更聰明

OpenAI開發出來的AI機器人(AI Bot)只花了兩週的練習時間,透過「加強式學習(reinforcement learning」、就能從完全不會進化到能夠擊敗Dota 2(Defense of the Ancients 2)職業獎金累計超過70萬美元的職業選手(見圖)。不過,OpenAI若想在明年國際邀請賽五對五(5-vs-5)完整遊戲中擊敗人類、光靠加強式學習可能還不夠。

微軟AI官方部落格6月報導,AI專家相信加強式學習可以用來創造出能夠自行做出更多決策、更複雜事情的AI代理人,讓人類可以有更多時間從事具備更高附加價值的工作。微軟在今年初併購一家名為「Maluuba」的加拿大深度學習新創公司。

紐約時報8月13日報導,如果機器懂得玩「俠盜獵車手(Grand Theft Auto)」、研究人員相信它就能懂得開真正的車。如果AI學會用網頁瀏覽器以及其他常見的應用軟體,它就能學會並理解自然語言、甚至有辦法進行一段對話。谷歌(Google)、加州大學柏克萊分校等地早已透過這種方式讓機器人學會撿東西、開門等簡單任務。

OpenAI研究員Dario Amodei利用「賽船冠軍賽(Coast Runners)」電腦遊戲訓練AI Bot。這項遊戲的贏家不僅必須得到高分、還得通過終點線才行。結果,OpenAI訓練的AI Bot為了贏得高分拼命在原地打轉、忘了要穿越終點線。於是,Amodei跟同事Paul Christiano改良了程式碼,不僅讓AI透過數小時的嘗試錯誤(trial & error)熟悉任務,也讓人類老師可透過點選的方式讓AI知道什麼才是對的、就像父母教小孩一樣。

Dota 2完整遊戲中、兩隊的5個玩家從113位虛擬英雄中選取對隊伍最有利的人物,在一個戰場中賺取金錢購買具不同功能的物品、獲得經驗且提升英雄的特殊技能。在地圖的兩邊是兩隊的基地,玩家的最終目標就是摧毀對方的基地。

這個遊戲和台灣大多數人較熟悉的「英雄聯盟」相似,但Dota 2的角色在遊戲中有更多的玩法和變化。玩家不僅要有極快的反應時間,也要依照情勢判斷接下來的目標並預測敵人的位置。

根據麥肯錫全球研究院(MGI)發布的報告,全球最充滿活力的AI樞紐分別是矽谷、紐約、北京、波士頓、倫敦以及深圳。

*編者按:本文僅供參考之用,並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦,讀者務請運用個人獨立思考能力,自行作出投資決定,如因相關建議招致損失,概與《精實財經媒體》、編者及作者無涉。

MoneyDJ 新聞 2017-08-14 14:53:06 記者賴宏昌 報導