20 世紀以來,電腦遊戲(Computer game)就一直被視為 AI 界的果蠅,意思是如果想深入研究 AI 技術,電腦遊戲會是人工智慧的最佳縮影。棋局多變、難度極高的電腦圍棋更視為 AI 的挑戰,打敗職業棋士一直是圍棋程式開發者的終極目標。
2016 年,AlphaGo 擊敗南韓最強棋士李世乭後,AI 頓時成了全世界最熱門關鍵字,關於 AI 的產業應用及哲學思辨如雨後春筍冒出;然而 AlphaGo 問世,宣告的不僅是程式打敗人類的結果,研究方法與技術才是接下來加速全球產業革新的關鍵,圍棋只是 AI 顛覆世界的起點。
國內從事電腦遊戲研究的知名學者吳毅成教授,是台灣在 AI 領域最具指標性的學者之一。吳毅成教授目前正在參與科技部 AI 研究計畫「深度強化式學習技術之應用研究」,聚焦 AI 如何從虛擬環境走入真實世界的應用。透過本次專訪,大眾有機會深入了解吳毅成對 AI 未來趨勢的見解,以及他在深度強化式學習技術的 3 種應用研究。
▲ 吳毅成教授。(Source:交通大學)
深度強化式學習(Deep Reinforcement Learning,DRL)是深度學習(DL)與強化式學習(RL)的結合,兩者同屬於機器學習(ML)領域的技術。如果說人工智慧是模擬人的大腦運作,深度學習就如同視覺感知,如學習辨識物件,強化式學習則是學習決策布局,深度強化式學習整合兩者,學習感知及其後決策。
過去單純的強化式學習,需要仰賴人為編寫規則或繁複工具才能獲取訓練特徵,例如傳統西洋棋需要辨識優劣棋型,必須先經過研究分析等步驟,並利用演算法歸納出棋型特徵,再透過獎懲機制強化電腦的認知,以做出最佳的決策。
而深度學習則是具備自動抓取特徵的能力。例如辨別貓狗的問題,只要餵給電腦大量的圖片,深度學習技術就能自動分類出屬於貓或狗的特徵,相當於一顆擁有超強記憶力的「高級人腦」。由於這個學習過程需要相當強大的運算單元來支持,因此深度學習是到近十年硬體設備有了明顯升級,才開始爆炸性的成長。
2016 年 AlphaGo 就是結合這兩種技術(DL+RL=DRL),先利用深度學習技術分析與模仿人類棋譜,判別棋型與局勢優劣,而後再加入強化式學習的訓練,並結合重要的強化式學習方法──蒙地卡羅樹搜尋法創新招數,因此獲致打敗世界最強職業棋士的重大成果。
聚焦於探索更泛化的人工智慧(Artificial General Intelligence),2017 年 AlphaGo 的開發團隊 Deepmind 進一步在《Nature》期刊發表 AlphaGo Zero,採用更進階的 DRL 技術,訓練程式從「零知識」開始學圍棋,過程無需人類專家的棋譜資料,AlphaGo Zero 靠著「自己打自己」學習得勝策略,實力直接超越所有人類棋士和圍棋 AI,包括 AlphaGo。
這套從圍棋程式發展的「自學技術」,已不再局限於圍棋,AlphaGo Zero 的進階版 AlphaZero 甚至延伸到其他如西洋棋、將棋等棋類,同樣透過自學取得頂尖成績,這樣的結果不僅開啟學界對 DRL 技術的研究熱潮,同時也預告未來 AI 將更有機會應用於多方領域,走向產業化發展。
過去由吳毅成領軍的電腦遊戲與智慧實驗室(Computer Games and Intelligence Lab,簡稱 CGI Lab)曾在 2017 年 7 月 IEEE FUZZ 國際會議舉辦的人機圍棋賽中,以圍棋程式「CGI」(全名 CGI Go Intelligence)打敗紅面棋王周俊勳,成為第一個在正式的人機賽打敗職業九段棋士的學界程式。一個月後,CGI 在世界智能圍棋公開賽擊敗中國騰訊公司的絕藝、日本 DeepZenGo 等知名 AI,獲得預賽全勝冠軍、決賽亞軍的好成績,成為注目焦點。
與其他投入大量計算資源的企業相比,學界程式能獲得如此成績很不容易,而 CGI 靠得就是持續開發新方法來精進演算法,以減少計算資源的消耗。吳毅成提到,在這次「深度強化式學習技術之應用研究」,他將研究主軸依應用環境分成三類,第一類就是以 DRL 技術持續精進 CGI 的演算法,同時延伸至圍棋的教學應用。
2017 年在世界智能賽獲得亞軍之後,吳毅成與國內知名的海峰棋院及職業棋士合作,藉由 CGI 程式輔助棋士的對弈訓練,並且進一步研發出「圍棋終身學習系統」,在 2018 年科技部主辦的「未來科技展」獲得相當高的人氣。技術論文更被 AI 領域極具權威的會議 AAAI-19 接受,顯示國際學術社群也相當肯定這項研究。
吳毅成表示,這個想法是在與「海峰棋院精銳隊總教練」周俊勳棋王交流時誕生的。當時周俊勳提到一個狀況,如果棋士實際棋力有進步,但與 AI 對弈卻還是輸了,那麼對棋士來說就會變成困擾:他們沒辦法知道自己棋力的程度。即便有很強的圍棋程式,甚至出現更強的,對棋士而言沒辦法分辨強度變化。
「所以如果有棋力跟他們差不多的程式,說不定就能讓棋士抓到感覺。」吳毅成說。這項從使用者回饋而來的建議,讓團隊開始鑽研動態調整棋力的技術,因此開發出多達 40 種棋力、從初學到職業棋士等級都有的圍棋教學系統,使用者可以根據棋力選擇適合的等級來玩,同時程式也會在過程中自動檢測對手棋力強度,以提供棋士客製化訓練。
這款圍棋教學系統最大的意義,在於 AI 從打敗人類棋士的里程碑,躍升至教學相長的層次。即使現在圍棋 AI 已無人能敵,但人類仍未完全理解 AI 為什麼這樣下棋,甚至有些棋譜人類未曾看過;藉由 AI 教導人類,一方面將能協助棋士挑戰更強的對手,一方面也能幫助人類更理解 AI 的決策邏輯。
▲ 2018 年未來科技展中,紅面棋王周俊勳和吳毅成團隊研發的「圍棋終身學習系統」對弈。(Source:交通大學)
今年 2 月,吳毅成再度刊登論文於 AAAI-20,發表團隊改良 AlphaZero 的新方法,是名叫「PBT」(Population Based Training)的方法。過去 AlphaZero 主要以自我對弈,如同金庸小說裡的周伯通「左手打右手」的方式訓練,過程相當耗費運算資源。對此,吳毅成表示:「我們學校跟大公司比,相對來說沒有那麼多的資源,所以我們希望提出新想法,而不是單純按照 AlphaZero 的做法訓練,因為這樣就永遠追不上別人」。
這次改良的新方法,就是想看能否不只左手打右手,而是像「武林大賽」,同時訓練十多組程式隨機互打,以此獲得更好的訓練成果。比起自己打自己,與不同人互打更容易發現程式盲點。實驗證明此方法確實能讓 CGI 棋力大幅提升,對 Facebook 的 FAIR 研究中心研發的 OpenGo 圍棋程式勝率,從原來 47% 提升到 74%,大幅超越 OpenGo,而 OpenGo 圍棋程式是當時同規格的最強開源圍棋程式。
PBT 方法的另一個好處,是超參數(hyperparameters)可在「武林大賽」後自我調整,自我對打的棋譜數量卻無需增多,因此運算可維持穩定數量。比起自己打自己的傳統方法,大都必須分別用很多不同超參數組合來訓練,因此與其他發展團隊相比,PBT 方法可省下將近 10 倍的計算資源。節省大筆經費支出之外,同時還能增強棋力,是相當創新且實用的做法,對未來其他應用問題也提供很重要的參考。
不斷加強演算法的背後,吳毅成心中仍有一個清楚的目標,他希望這些研究出的新方法,能實際幫助生活應用問題。因此在圍棋之後,他的下一步決定投入當前 AI 熱門話題──電玩遊戲 AI Bot 研發。
早在 AlphaGo 問世之前,2013 年 DeepMind 已在《Nature》期刊發表使用 DRL 技術教電腦玩 Atari 遊戲的論文,並推出名為 Deep Q Network(DQN)的新演算法,可說是電玩 AI 機器人(AI Bot)的開山始祖。
▲ DeepMind 展示以 DQN 技術訓練 A I玩 Atari 遊戲的突破。
在電玩遊戲,由於玩家訊息來自畫面且移動自由性高次數更多,因此相較圍棋、西洋棋的維度高出許多,這使設計難度更高。近年隨著軟硬體各方面技術的提升,電玩 AI 研究屢創佳績,例如 2019 年 4 月,馬斯克創立的 OpenAI 研究團隊,在堪稱最複雜的戰略遊戲《Dota 2》,以 OpenAI Five 的 AI 機器人打敗職業電競團隊 OG,登上世界第一寶座;同年 10 月,DeepMind 也發表 AlphaStar 在高難度策略遊戲《星海爭霸 2》的成果論文,並表示 AlphaStar 的排名已超越 99.85% 人類玩家,再次驗證遊戲 AI 驚人的學習能力。
吳毅成表示,以遊戲公司的立場來看,AI Bot 可扮演陪玩角色,當遇上組隊人數不足、新手需要陪練等狀況時,AI Bot 能根據玩家需求及時支援,同時引導玩家在挑戰其他玩法,因此電玩 AI 的強度必須夠強,才不會因為玩太差讓玩家覺得無趣。
除了強度夠強,AI Bot 的行為還要「合理」才行。所謂的合理即是 AI 的表現要像人類,包含移動方式、速度、平衡等方面,不會讓玩家覺得 AI 行為怪異。另外從遊戲品質的角度來看,許多遊戲公司可能上架後才發現系統設計有瑕疵,如果 AI bot 能在遊戲釋出前先協助偵測弱點,對公司整體經營將有很大幫助。
目前吳毅成團隊正在與遊戲公司合作 AI 訓練技術,未來可滿足如擬人化、具備多種強度、多變行為等遊戲 AI 需求,以及協助開發者進行遊戲弱點偵測,將能有效降低遊戲公司開發 AI 的門檻與資金,提升台灣遊戲產業。
▲ 吳毅成團隊以 TORCS (The Open Racing Car Simulator)訓練電玩 AI Bot。TORCS 為開源的 3D 賽車遊戲模擬器,可當作普通賽車遊戲和 AI 研究平台。(Source:吳毅成提供)
電玩遊戲可視為真實世界的模擬,透過在遊戲環境大量練習,AI 較有機會發展出應對各類問題的能力,例如在 AI 表現較弱的「長期規劃」、「合作」等方面加強訓練,以此進展到真實世界的應用。目前吳毅成也正致力將虛擬環境的技術,整合至真實世界的應用,而實體 DRL 應用領域就是他鎖定的下個目標。
實體 DRL 應用相對前述兩類,研究更難控制且沒有規律,包含自駕車、機械手臂、無人機等都屬於這類。且這類問題還有一個特徵,就是不能訓練很多次。
以無人機為例,如果訓練一次就摔下去,雖然可以得到負面樣本,但耗費成本太高,無論學校或是企業都不可能如此大量測試與訓練,因此會需要先在虛擬環境模擬訓練,然後再將模型整合至實體運作。
吳毅成表示,過去這些實體應用如機器人研究已累積多年經驗,精確度也達到一定程度,但大多需要仰賴人為編寫規則或繁複工具才能取得有用特徵,例如工件、機台的角度距離等,再利用演算法歸納以做出最佳決策。DRL 的研究並不是要挑戰過去研究,而是希望從 DRL 的學習角度為機器人技術帶來設計多樣性。
過去廠商可能花很多心力設計一樣產品,等樣式出來後,再花時間將規則設定至合適的機器手臂,按照這個方式檢測或夾取等動作。然而現在商品生命週期縮短,越來越多人希望「客製化」,商品設計經常要變化,因此產品如果要重新設計,相對付出的成本和心力就會很高。
而 DRL 研究可以切入的正是這樣的角度。DRL 的適應性強,適合用來解決前述類型的問題,例如教它學習夾取方塊,或許它還能再學會夾取三角形、圓球等其他物件,不會受限同一形體。雖然現階段 DRL 技術要做到這樣還有很長一段路要走,但這個研究方向將是未來製造業邁向 AI 時代的關鍵。
目前吳毅成正以自駕模型賽車為實驗對象。2019 年 12 月吳毅成實驗室學生朱詠嘉、陳源灝、黃勁博,代表台灣前往美國參加 AWS DeepRacer 實體賽車競賽總決賽,擊敗眾多強勁對手獲得第三名的殊榮,成為該比賽成績最優異的學界團隊。
▲ CGI 實驗室成員朱詠嘉在 AWS DeepRacer 大賽獲頒季軍。(Source:Amazon Web Services)
AWS DeepRacer 使用 18:1 的模型賽車,誰能最快繞行一圈且不出界,就是比賽贏家。這款模型賽車前方有相機負責擷取影像,車上裝載英特爾處理器為神經網路的訓練資料來源,再透過神經網路將決策資訊傳到馬達,以此操作車子的方向與速度。
模型賽車的自駕訓練,同樣要先在虛擬環境進行大量測試,才能正式上路。但 sim2real(從虛擬到真實)是這類型研究的難關,即使虛擬環境訓練再好,碰上真實世界的光影變化、震動等狀況,都有可能造成影像判斷與決策資訊的混亂,使得車子失控偏離賽道。因此如何協助模型適應多元環境,成了 DRL 在實體應用研究的挑戰之一。
經過這次 AWS 比賽,吳毅成團隊在整合虛擬與真實的技術,有了相當寶貴的經驗。當初為了銜接模型與實際環境的差距,團隊特地在決賽前購入實體賽道,並自行開發多種分析工具,用來協助賽車在真實環境遇到的問題。中間曾遭遇嚴重反光、賽道印製錯誤等問題,過程相當驚險,所幸吳毅成與他的團隊擁有堅持不懈的韌性,逐一克服這些挑戰,才能在這場國際比賽脫穎而出。
2020 年,吳毅成團隊將再次挑戰 AWS DeepRacer,結合過去參賽經驗與最新 DRL 研究成果,相信今年將會有更精彩的表現。
▲ 2019 AWS DeepRacer 決賽影片。
「其實我覺得最近機器學習跟 AI 的成長,與當初電腦科學的成長有點像,有多樣性與未來性。」吳毅成表示,電腦科學能隨著時代演進帶來千變萬化的應用,像是過去的網際網路、雲端、大數據的崛起,這些與電腦的發展息息相關,進而產生出各式的應用問題。對於未來想投入 AI 研究的年輕學子,吳毅成相當鼓勵大家探索這個很有挑戰的領域,也建議學生要比以往更看重數學的重要性。
「這塊領域牽涉到很多數學、程式的技術,在數學方面有統計、機率、線性代數、微分方程等,幾乎很多尖端的數學都會用到,對於許多對數學很感興趣的同學來說,是一個很大的發展機會,同時也是個很有挑戰性的領域」吳毅成說。
AI 改變世界的速度太快,快到許多人開始擔心未來很多職業即將被 AI 取代,吳毅成也同意這是值得注意的,「說實在我無法預測未來世界的發展,當初我也看走眼,我一直以為圍棋至少還要十年才能達到現在的狀況,但是沒想到就這樣結束了」。
從棋類、電玩到機器人應用,以 AI 進展來說,吳毅成表示目前許多研究正在關注電玩遊戲,這方面的發展會非常快;然而現階段實體 DRL 的應用如機器人,還有許多複雜且高難度的問題要解決,要跨過這步仍然是很大的挑戰。
所以說,科幻電影裡機器人超越人類的狀況還會發生嗎?吳毅成笑笑地表示,雖然不至於立即發生,「但是我不敢保證它一定不會發生」。面對 AI 創造的新時代,其實最重要的是人類該用何種心態學習,如果原本的工作是研究如何使機器變得更強,那麼相對來說比較不用擔心這樣的狀況。先思考什麼能力是 AI 無法取代的,才有機會在未來世界與 AI 同行。
(本文由 人工智慧普適研究中心 授權轉載;首圖來源:DeepMind)原文出處: 從圍棋到電玩,AI 將如何走入真實世界?交大資工系吳毅成教授從 AlphaGo 談起 TechNews