扒开女人内裤猛进猛出免费视频 ,久久996re热这里只有精品无码 ,亚洲欧洲日产国码无码av喷潮,国产乱子乱人伦毛片

新聞中心News

聯(lián)系方式Contact Us

  • 深圳市聚泓瀚科技有限公司
  • 地址:深圳市寶安區(qū)松崗街道廣深路松崗段2號廠房宇恒工業(yè)園1棟4樓
  • 手機(jī):13923733903
  • 郵箱:kevin@juhonghan.com
  • 網(wǎng)址:yqmpw.cn
當(dāng)前位置:首頁 > 新聞中心 > 媒體報道
媒體報道
學(xué)習(xí)效率低怎么辦?谷歌科學(xué)家讓人工智能邊玩邊學(xué).
發(fā)布時間:2019-04-05    閱覽次數(shù):1091 次  
    深度強(qiáng)化學(xué)習(xí)是一種利用獎勵推動軟件策略實(shí)現(xiàn)目標(biāo)的人工智能培訓(xùn)技術(shù),已經(jīng)被用于各種會對社會規(guī)范產(chǎn)生影響的模型,比如創(chuàng)建擅長玩游戲的人工智能以及可以從泄露事故中恢復(fù)的編程機(jī)器人。但是盡管它具有很多功能,但強(qiáng)化學(xué)習(xí)(RL)還是有一個缺點(diǎn):效率低下。培訓(xùn)一個策略需要在模擬或現(xiàn)實(shí)環(huán)境中進(jìn)行大量的交互,這個過程遠(yuǎn)遠(yuǎn)超過普通人學(xué)習(xí)一個任務(wù)所需要的交互量。      
       為了在視頻游戲領(lǐng)域做出一些改進(jìn),谷歌的研究人員最近提出了一種新的算法,模擬策略學(xué)習(xí)(Simulated Policy Learning),簡稱SimPLe,它使用游戲模型來學(xué)習(xí)選擇動作的質(zhì)量策略。
  谷歌的人工智能科學(xué)家Kaiser和Dumitru Erhan在相關(guān)論文中寫道:“在高層次上,SimPLe是在模擬游戲環(huán)境中學(xué)習(xí)游戲行為的世界模型,并使用該模型優(yōu)化策略之間的交替。這種算法背后的基本原理已經(jīng)建立得非常好了,并已被用于最近許多基于模型的強(qiáng)化學(xué)習(xí)方法之中。”
  訓(xùn)練人工智能系統(tǒng)玩游戲需要在給定一系列觀察幀和命令,例如“左”、“右”、“前”、“后”的情況下預(yù)測目標(biāo)游戲的下一幀。他們指出,一個成功的模型可以產(chǎn)生可用于訓(xùn)練游戲代理策略的軌跡,這將消除對游戲內(nèi)序列的需要,這些序列的計算成本高昂。
  在相當(dāng)于持續(xù)兩小時的游戲?qū)嶒?yàn)中,使用SimPLe調(diào)整策略的代理在兩個測試游戲中獲得了最高分,并產(chǎn)生了“近乎完美的預(yù)測”,最多可以預(yù)測未來50步。它們偶爾會難以捕捉游戲中某些物體,因而導(dǎo)致失敗,研究人員承認(rèn)它還無法達(dá)到標(biāo)準(zhǔn)RL方法的性能,但SimPLe在培訓(xùn)方面的效率已經(jīng)提高了兩倍。

     Copyright ? 深圳市聚泓瀚科技有限公司 保留所有權(quán)利      備案號:粵ICP備18062864號    Powered By 博盈網(wǎng)絡(luò)營銷     
咨詢熱線:
13923733903
在線客服:
小孟
客服在線
翁生
官方微信站:
公司官網(wǎng): yqmpw.cn