為了在視頻游戲領(lǐng)域做出一些改進(jìn),谷歌的研究人員最近提出了一種新的算法,模擬策略學(xué)習(xí)(Simulated Policy Learning),簡稱SimPLe,它使用游戲模型來學(xué)習(xí)選擇動作的質(zhì)量策略。
谷歌的人工智能科學(xué)家Kaiser和Dumitru Erhan在相關(guān)論文中寫道:“在高層次上,SimPLe是在模擬游戲環(huán)境中學(xué)習(xí)游戲行為的世界模型,并使用該模型優(yōu)化策略之間的交替。這種算法背后的基本原理已經(jīng)建立得非常好了,并已被用于最近許多基于模型的強(qiáng)化學(xué)習(xí)方法之中。”
訓(xùn)練人工智能系統(tǒng)玩游戲需要在給定一系列觀察幀和命令,例如“左”、“右”、“前”、“后”的情況下預(yù)測目標(biāo)游戲的下一幀。他們指出,一個成功的模型可以產(chǎn)生可用于訓(xùn)練游戲代理策略的軌跡,這將消除對游戲內(nèi)序列的需要,這些序列的計算成本高昂。
在相當(dāng)于持續(xù)兩小時的游戲?qū)嶒?yàn)中,使用SimPLe調(diào)整策略的代理在兩個測試游戲中獲得了最高分,并產(chǎn)生了“近乎完美的預(yù)測”,最多可以預(yù)測未來50步。它們偶爾會難以捕捉游戲中某些物體,因而導(dǎo)致失敗,研究人員承認(rèn)它還無法達(dá)到標(biāo)準(zhǔn)RL方法的性能,但SimPLe在培訓(xùn)方面的效率已經(jīng)提高了兩倍。
http://www.cnmo.com/news/658957.html