-
星際2職業(yè)高手史上首次被AI擊潰 AlphaStar一戰(zhàn)成名
關(guān)鍵字: AlphaStar戰(zhàn)勝人類選手星際2《星際2》,人類首戰(zhàn)告負(fù)。
2016年3月DeepMind團(tuán)隊(duì)的AlphaGo擊敗世界圍棋頂級棋手李世石,但在AlphaGo還名不見經(jīng)傳時(shí),它首先是與職業(yè)棋手樊麾較量取得勝利,而如今該團(tuán)隊(duì)設(shè)計(jì)的新的AlphaStar同樣擊敗了星際2的職業(yè)選手TLO和MaNa。
TLO是一位德國職業(yè)星際2選手,原名Dario Wünsch,1990年7月13日出生?,F(xiàn)在效力于職業(yè)游戲戰(zhàn)隊(duì)Liquid。根據(jù)官方公布的數(shù)據(jù),TLO在2018 WCS Circuit排名:44。
(德國職業(yè)星際2選手TLO)
MaNa是一位出生于波蘭的職業(yè)星際2選手,原名Grzegorz Komincz,1993年12月14日出生,目前也效力于Liquid。MaNa去年獲得WCS Austin的第二名。根據(jù)官方公布的數(shù)據(jù),他在2018 WCS Circuit排名:13。
(波蘭的職業(yè)星際2選手MaNa)
1月25日,DeepMind 的AI AlphaStar 首次亮相。DeepMind 公布了其錄制的 AI 在《星際爭霸 2》中與2位職業(yè)選手的比賽過程:AlphaStar 分別以5:0的成績戰(zhàn)勝了兩位職業(yè)選手 TLO 和 MaNa 。
最后直播的一場比賽中,DeepMind限制了AlphaStar的游戲視角,并在沒有測試的前提下與MANA進(jìn)行比賽,讓人類終于贏了一場。
如何打造AlphaStar
對于如何訓(xùn)練AlphaStar,DeepMind 科學(xué)家 Oriol Vinyals、David Silver 表示,首先是模仿學(xué)習(xí),團(tuán)隊(duì)從許多選手那里獲得了很多比賽回放資料,并試圖讓 AI 通過觀察一個(gè)人所處的環(huán)境,盡可能地模仿某個(gè)特定的動(dòng)作,從而理解星際爭霸的基本知識。這其中所使用到的訓(xùn)練資料不但包括專業(yè)選手,也包括業(yè)余選手。這是 AlphaStar 成型的第一步。
AlphaStar學(xué)會(huì)打星際,全靠深度神經(jīng)網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)從原始游戲界面接收數(shù)據(jù) (輸入) ,然后輸出一系列指令,組成游戲中的某一個(gè)動(dòng)作。
再說得具體一些,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對星際里的那些單位,應(yīng)用一個(gè)Transformer,再結(jié)合一個(gè)深度LSTM核心,一個(gè)自動(dòng)回歸策略 (在頭部) ,以及一個(gè)集中值基線 (Centralised Value Baseline)。
團(tuán)隊(duì)會(huì)使用一個(gè)稱為“Alpha League”的方法。在這個(gè)方法中,Alpha League 的第一個(gè)競爭對手就是從人類數(shù)據(jù)中訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò),然后進(jìn)行一次又一次的迭代,產(chǎn)生新的 agent 和分支,用以壯大“Alpha League”。
然后,這些 agent 通過強(qiáng)化學(xué)習(xí)過程與“Alpha League”中的其他競爭對手進(jìn)行比賽,以便盡可能有效地?fù)魯∷羞@些不同的策略,此外,還可以通過調(diào)整它們的個(gè)人學(xué)習(xí)目標(biāo)來鼓勵(lì)競爭對手朝著特定方式演進(jìn),比如說旨在獲得特定的獎(jiǎng)勵(lì)。
最后,團(tuán)隊(duì)在“Alpha League”中選擇了最不容易被利用的 agent,稱之為“the nash of League”。
AI打星際2意味著什么
早在2003年人類就開始嘗試用AI解決即時(shí)戰(zhàn)略(RTS)游戲問題。那時(shí)候AI還連圍棋問題還沒有解決,而RTS比圍棋還要復(fù)雜。
直到2016年,“阿爾法狗”打敗了李世石。DeepMind在解決圍棋問題后,很快把目光轉(zhuǎn)向了《星際2》。
與國際象棋或圍棋不同,星際玩家面對的是“不完美信息博弈”。
在玩家做決策之前,圍棋棋盤上所有的信息都能直接看到。而游戲中的“戰(zhàn)爭迷霧”卻讓你無法看到對方的操作、陰影中有哪些單位。
這意味著玩家的規(guī)劃、決策、行動(dòng),要一段時(shí)間后才能看到結(jié)果。這類問題在現(xiàn)實(shí)世界中具有重要意義。
為了獲勝,玩家必須在宏觀戰(zhàn)略和微觀操作之間取得平衡。
平衡短期和長期目標(biāo)并適應(yīng)意外情況的需要,對脆弱和缺乏靈活性的系統(tǒng)構(gòu)成了巨大挑戰(zhàn)。
掌握這個(gè)問題需要在幾個(gè)AI研究挑戰(zhàn)中取得突破,包括:
? 博弈論:星際爭霸沒有單一的最佳策略。因此,AI訓(xùn)練過程需要不斷探索和拓展戰(zhàn)略知識的前沿。
? 不完美信息:不像象棋或圍棋那樣,棋手什么都看得到,關(guān)鍵信息對星際玩家來說是隱藏的,必須通過“偵察”來主動(dòng)發(fā)現(xiàn)。
? 長期規(guī)劃:像許多現(xiàn)實(shí)世界中的問題一樣,因果關(guān)系不是立竿見影的。游戲可能需要一個(gè)小時(shí)才能結(jié)束,這意味著游戲早期采取的行動(dòng)可能在很長一段時(shí)間內(nèi)都不會(huì)有回報(bào)。
? 實(shí)時(shí):不同于傳統(tǒng)的棋類游戲,星際爭霸玩家必須隨著游戲時(shí)間的推移不斷地執(zhí)行動(dòng)作。
? 更大的操作空間:必須實(shí)時(shí)控制數(shù)百個(gè)不同的單元和建筑物,從而形成可能的組合空間。此外,操作是分層的,可以修改和擴(kuò)充。
為了進(jìn)一步探索這些問題,DeepMind與暴雪2017年合作發(fā)布了一套名為PySC2的開源工具,在此基礎(chǔ)上,結(jié)合工程和算法突破,才有了現(xiàn)在的AlphaStar。
除了DeepMind以外,其他公司和高校去年也積極備戰(zhàn):
? 4月,南京大學(xué)的俞揚(yáng)團(tuán)隊(duì),研究了《星際2》的分層強(qiáng)化學(xué)習(xí)方法,在對戰(zhàn)最高等級的無作弊電腦情況下,勝率超過93%。
? 9月,騰訊AI Lab發(fā)布論文稱,他們構(gòu)建的AI首次在完整的蟲族VS蟲族比賽中擊敗了星際2的內(nèi)置機(jī)器人Bot。
? 11月,加州大學(xué)伯克利分校在星際2中使用了一種新型模塊化AI架構(gòu),用蟲族對抗電腦難度5級的蟲族時(shí),分別達(dá)到 94%(有戰(zhàn)爭迷霧)和 87%(無戰(zhàn)爭迷霧)的勝率。
DeepMind CEO哈薩比斯在賽后說,雖然星際爭霸“只是”一個(gè)非常復(fù)雜的游戲,但他對AlphaStar背后的技術(shù)更感興趣。其中包含的超長序列的預(yù)測,未來可以用在天氣預(yù)測和氣候建模中。
內(nèi)容根據(jù)微信公眾號量子位、鈦媒體APP、36氪等資料綜合整理
- 原標(biāo)題:1-10落敗,5分鐘崩盤!星際2職業(yè)高手史上首次被AI擊潰,AlphaStar一戰(zhàn)成名
- 請支持獨(dú)立網(wǎng)站,轉(zhuǎn)發(fā)請注明本文鏈接:
- 責(zé)任編輯:程小康
- 最后更新: 2019-01-25 14:48:29
-
為什么我不看好社區(qū)團(tuán)購
2019-01-25 10:31 -
小米首秀雙折疊屏手機(jī):柔宇高管語出驚人
2019-01-25 09:20 手機(jī) -
動(dòng)車與地鐵“混血” 上線運(yùn)營
2019-01-25 07:24 高鐵世紀(jì) -
華為發(fā)布5G多模終端芯片和商用終端
2019-01-24 13:03 -
華為發(fā)布業(yè)界首款5G基站核心芯片 算力強(qiáng)約2.5倍
2019-01-24 12:09 華為 -
差點(diǎn)友盡!微信出bug消息發(fā)不出甚至有人被刪好友
2019-01-24 12:01 大公司 -
歐洲航天局:剛簽合同,2025年前登月
2019-01-23 08:19 航空航天 -
韓國兩大半導(dǎo)體巨頭去年第四季度業(yè)績慘淡
2019-01-22 18:05 -
難道這就是德國制造 柏林勃蘭登堡機(jī)場十幾年“爛尾”
2019-01-22 16:59 -
像素大戰(zhàn)!雷軍開懟榮耀:底大一級壓死人
2019-01-22 16:51 手機(jī) -
從論證到首飛僅用一年半,飛龍-1空中首秀燃爆了!
2019-01-22 09:51 航空安全 -
英媒:深圳、上海將比紐約提前20年實(shí)現(xiàn)公交系統(tǒng)全電動(dòng)化
2019-01-22 09:22 -
我國自主研發(fā)磁性基板打破國外技術(shù)壟斷
2019-01-21 19:52 科技前沿 -
外媒:iPhone XR、XS銷量史上第二差,庫存激增將影響出貨量至年中
2019-01-21 16:05 手機(jī) -
多次數(shù)據(jù)封鎖后 美為何要借中國中繼星?
2019-01-21 13:56 科技前沿 -
任正非首談未進(jìn)"改革開放杰出貢獻(xiàn)人物"名單:主動(dòng)放棄
2019-01-21 09:57 互聯(lián)網(wǎng)大佬 -
東芝宣布實(shí)現(xiàn)氧化亞銅太陽能電池透明化
2019-01-21 06:39 -
同款佩奇走紅 鼓風(fēng)機(jī)價(jià)格翻3倍
2019-01-20 08:19 中國雷人秀 -
工信部副部長:中國加快5G商用已具堅(jiān)實(shí)基礎(chǔ)
2019-01-19 22:52 科技前沿 -
過去1個(gè)月 美航天局與中方討論這事
2019-01-19 17:00 航空航天
相關(guān)推薦 -
“印巴沖突是敘事之戰(zhàn),中國裝備重要性凸顯” 評論 184最新聞 Hot
-
美國官員:殲-10擊落陣風(fēng),沒用F-16
-
特朗普:對華關(guān)稅145%到頂了,要降
-
印度稱軍事基地遭巴基斯坦襲擊,巴方否認(rèn)
-
特朗普:可能找中國幫忙
-
蓋茨怒懟:馬斯克就是在殺死兒童
-
微軟總裁瞎操心:不讓員工用DeepSeek
-
特朗普:美國與烏克蘭達(dá)成稀土協(xié)議
-
特朗普祝賀:歷史性時(shí)刻,美國的莫大榮耀
-
100多架飛機(jī)大戰(zhàn)后,印巴局勢怎么走?
-
美國又炒作“中國在古巴進(jìn)行間諜活動(dòng)”,我大使駁斥
-
美英談成了,“英國讓步”
-
沖突愈演愈烈,莫迪首發(fā)聲
-
“美國在歐洲的廣泛軍事存在并不是必然的"
-
印度兩座水電站已重新開閘
-
“印巴沖突是敘事之戰(zhàn),中國裝備重要性凸顯”
-
夸大對華關(guān)稅效果,她被打假了
-