新聞中心News

聯(lián)系方式Contact Us

深圳市聚泓瀚科技有限公司
地址：深圳市寶安區(qū)松崗街道廣深路松崗段2號廠房宇恒工業(yè)園1棟4樓
手機(jī)：13923733903
郵箱：kevin@juhonghan.com
網(wǎng)址：yqmpw.cn

媒體報道

學(xué)習(xí)效率低怎么辦？谷歌科學(xué)家讓人工智能邊玩邊學(xué).

發(fā)布時間：2019-04-05 閱覽次數(shù)：1091 次

深度強(qiáng)化學(xué)習(xí)是一種利用獎勵推動軟件策略實(shí)現(xiàn)目標(biāo)的人工智能培訓(xùn)技術(shù)，已經(jīng)被用于各種會對社會規(guī)范產(chǎn)生影響的模型，比如創(chuàng)建擅長玩游戲的人工智能以及可以從泄露事故中恢復(fù)的編程機(jī)器人。但是盡管它具有很多功能，但強(qiáng)化學(xué)習(xí)（RL）還是有一個缺點(diǎn)：效率低下。培訓(xùn)一個策略需要在模擬或現(xiàn)實(shí)環(huán)境中進(jìn)行大量的交互，這個過程遠(yuǎn)遠(yuǎn)超過普通人學(xué)習(xí)一個任務(wù)所需要的交互量。

為了在視頻游戲領(lǐng)域做出一些改進(jìn)，谷歌的研究人員最近提出了一種新的算法，模擬策略學(xué)習(xí)（Simulated Policy Learning），簡稱SimPLe，它使用游戲模型來學(xué)習(xí)選擇動作的質(zhì)量策略。
　　谷歌的人工智能科學(xué)家Kaiser和Dumitru Erhan在相關(guān)論文中寫道：“在高層次上，SimPLe是在模擬游戲環(huán)境中學(xué)習(xí)游戲行為的世界模型，并使用該模型優(yōu)化策略之間的交替。這種算法背后的基本原理已經(jīng)建立得非常好了，并已被用于最近許多基于模型的強(qiáng)化學(xué)習(xí)方法之中。”
　　訓(xùn)練人工智能系統(tǒng)玩游戲需要在給定一系列觀察幀和命令，例如“左”、“右”、“前”、“后”的情況下預(yù)測目標(biāo)游戲的下一幀。他們指出，一個成功的模型可以產(chǎn)生可用于訓(xùn)練游戲代理策略的軌跡，這將消除對游戲內(nèi)序列的需要，這些序列的計算成本高昂。
　　在相當(dāng)于持續(xù)兩小時的游戲?qū)嶒?yàn)中，使用SimPLe調(diào)整策略的代理在兩個測試游戲中獲得了最高分，并產(chǎn)生了“近乎完美的預(yù)測”，最多可以預(yù)測未來50步。它們偶爾會難以捕捉游戲中某些物體，因而導(dǎo)致失敗，研究人員承認(rèn)它還無法達(dá)到標(biāo)準(zhǔn)RL方法的性能，但SimPLe在培訓(xùn)方面的效率已經(jīng)提高了兩倍。

http://www.cnmo.com/news/658957.html

返回列表