人工智能繼續(xù)進(jìn)階
——通殺棋界后,“阿法狗”走向教學(xué)
本報(bào)記者 張夢(mèng)然
今日視點(diǎn)
在人工智能(AI)領(lǐng)域,“阿法狗”(AlphaGo)是個(gè)囂張的名字。自2016年3月甫出茅廬震驚世人后,該程序妙手迭出,一路刷新紀(jì)錄。
至本月初,谷歌的AI子公司深度思維宣布“阿法狗”升級(jí)成了“阿法零”(AlphaZero),已一舉擊敗國(guó)際象棋、將棋、圍棋類三個(gè)世界冠軍級(jí)的電腦程序。
12月11日,該公司發(fā)布“阿法狗”教學(xué)工具。兩天后,團(tuán)隊(duì)資深研究員、曾代AI執(zhí)子的“人肉臂”黃士杰,宣布正式離開“阿法狗”,轉(zhuǎn)投深度思維其他項(xiàng)目。
“阿法狗”不斷升級(jí)
2016年,名為“阿法狗”的AI在和所有其他圍棋程序的對(duì)抗中獲得99.8%的勝率后,進(jìn)一步學(xué)習(xí),于當(dāng)年3月挑戰(zhàn)人類圍棋世界冠軍。五局鏖戰(zhàn),人類1∶4不敵AI,轟動(dòng)一時(shí)。人們將這一成績(jī)視為彼時(shí)人工智能的巔峰之作,沒成想,這只是“阿法狗”的起步。
今年1月,一個(gè)神秘賬號(hào)Master在知名圍棋平臺(tái)上先后挑戰(zhàn)柯潔、樸廷桓和井山裕太等頂級(jí)高手,豪取勝利,隨后戰(zhàn)贏“棋圣”聶衛(wèi)平,直至60盤決勝收官時(shí)自爆身份,公布自己正是“阿法狗”新版。
10月,“阿法狗”程序再次升級(jí)——“阿法元”(AlphaGo Zero)出現(xiàn),其以100∶0的不敗戰(zhàn)績(jī),狠狠擊敗了曾書寫歷史的舊版“阿法狗”,而且能夠從空白狀態(tài)起,在不需要任何人類棋譜輸入的條件下,無(wú)師自通,自學(xué)圍棋。
直至12月6日,深度思維再出驚人之舉:其研發(fā)的新一代“阿法零”,憑借強(qiáng)勁的計(jì)算資源,使其經(jīng)過不到24小時(shí)的自我對(duì)弈強(qiáng)化學(xué)習(xí),就接連擊敗了國(guó)際象棋、將棋、圍棋三個(gè)世界冠軍級(jí)的電腦程序,自此成了全能棋王。
“阿法零”獨(dú)孤求敗
最新出現(xiàn)的“阿法零”,是深度思維團(tuán)隊(duì)繼“阿法元”問世之后帶給人們的又一全新算法,并稱它是“更通用版本”。
目前,“阿法零”算法可以在8個(gè)小時(shí)訓(xùn)練后擊敗去年對(duì)戰(zhàn)李世石版本的“阿法狗”,再以4小時(shí)訓(xùn)練擊敗世界頂級(jí)的國(guó)際象棋程序Stockfish;又用2小時(shí)訓(xùn)練擊敗世界頂級(jí)將棋程序Elmo。
與前輩“阿法元”相比,“阿法零”有很多自己的獨(dú)到之處。首先,“阿法元”是在假設(shè)結(jié)果為贏/輸二元的情況下,對(duì)獲勝概率進(jìn)行估計(jì)和優(yōu)化,而“阿法零”會(huì)將平局及其他潛在結(jié)果都考慮在內(nèi),深一步估計(jì)和優(yōu)化;其次,“阿法零”并不是靠轉(zhuǎn)變棋盤位置進(jìn)行數(shù)據(jù)增強(qiáng),它只對(duì)單一神經(jīng)網(wǎng)絡(luò)進(jìn)行維護(hù),并不斷更新該神經(jīng)網(wǎng)絡(luò);最后,“阿法零”所有對(duì)弈都重復(fù)使用相同的超參數(shù)(開始學(xué)習(xí)過程之前設(shè)置值的參數(shù),而非通過訓(xùn)練得到的參數(shù)數(shù)據(jù)),因此無(wú)需額外針對(duì)特定某種棋類再進(jìn)行調(diào)整。
下一步落地應(yīng)用
本月11日,深度思維拿出了一套“阿法狗”教學(xué)工具?!鞍⒎ü贰眻F(tuán)隊(duì)核心成員黃士杰在其社交媒體賬號(hào)上介紹說,該教學(xué)工具總共收錄了約6000個(gè)近代圍棋史上主要的開局變化,從23萬(wàn)個(gè)人類棋譜中收集而來,而所有盤面都有“阿法狗”評(píng)估的勝率及推薦的下法。
這套教學(xué)使用的其實(shí)是神秘賬號(hào)Master那一版的“阿法狗”。但這里所有的勝率與下法,AI都思考過將近10分鐘——這意味著1000萬(wàn)次模擬,而每一個(gè)開局變化,“阿法狗”都固定延伸20步棋。再加上下法,整套教學(xué)工具約有2萬(wàn)個(gè)分支變化,37萬(wàn)個(gè)盤面。團(tuán)隊(duì)成員希望,人們能感受這套教學(xué)工具中的創(chuàng)新,并可從中獲益。
教學(xué)系統(tǒng)推出兩天后,黃士杰宣布正式告別“阿法狗”,投身公司的其他研究中。
其實(shí)早在今年5月,當(dāng)“阿法狗”戰(zhàn)勝柯潔后,深度思維就宣布此后該程序不會(huì)再參加到人機(jī)大戰(zhàn)的競(jìng)技中去。團(tuán)隊(duì)的下一步計(jì)劃,是研發(fā)出廣泛算法以投入應(yīng)用,包括給出疾病的治療方案、設(shè)法將能源消耗降低,以及發(fā)明出革命性新材料等。
現(xiàn)在,深度思維已與谷歌數(shù)據(jù)中心共同研發(fā)管理制冷系統(tǒng)的新技術(shù),并與英國(guó)全民醫(yī)療健康系統(tǒng)達(dá)成合作。他們,在讓AI相關(guān)算法真實(shí)落地于應(yīng)用中。
(科技日?qǐng)?bào)北京12月14日電)