基于期望值函數(shù)的離策略深度Q神經(jīng)網(wǎng)絡(luò)算法

作者:劉川莉; 蔡樂才; 高祥; 居錦武; 吳昊霖 四川輕化工大學(xué)自動化與信息工程學(xué)院; 四川自貢643000; 人工智能四川省重點(diǎn)實(shí)驗室; 四川自貢643000; 宜賓學(xué)院; 四川宜賓644000; 企業(yè)信息化與物聯(lián)網(wǎng)測控技術(shù)四川省高校重點(diǎn)實(shí)驗室; 四川自貢643000; 四川大學(xué)計算機(jī)學(xué)院; 成都610065

摘要:深度Q神經(jīng)網(wǎng)絡(luò)算法的值函數(shù)迭代算法大多為Q學(xué)習(xí)算法,這種算法使用貪婪值函數(shù)作逼近目標(biāo),不利于深度Q神經(jīng)網(wǎng)絡(luò)算法獲得長期來看更好的策略。通過以期望思想求解的期望值函數(shù)取代貪婪值函數(shù)作為更新目標(biāo),提出了基于期望值函數(shù)的離策略深度Q神經(jīng)網(wǎng)絡(luò)算法,并結(jié)合DQN算法神經(jīng)網(wǎng)絡(luò)更新方法,給出期望值函數(shù)能夠作用于DQN算法的解釋。通過使用該算法能夠快速獲得長期回報較高的動作和穩(wěn)定的策略。最后分別在CarPole-v1和Acrobot仿真環(huán)境中對期望值函數(shù)的離策略深度Q神經(jīng)網(wǎng)絡(luò)算法和深度Q神經(jīng)網(wǎng)絡(luò)算法進(jìn)行獲取策略的穩(wěn)定性對比實(shí)驗,結(jié)果表明,基于期望值函數(shù)的離策略深度Q神經(jīng)網(wǎng)絡(luò)算法能夠快速獲得長期回報較高的動作,并且該算法表現(xiàn)更為穩(wěn)定。

注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社

四川理工學(xué)院學(xué)報

省級期刊 下單

國際刊號:1672-8580

國內(nèi)刊號:51-1676/C

雜志詳情
相關(guān)熱門期刊

服務(wù)介紹LITERATURE

正規(guī)發(fā)表流程 全程指導(dǎo)

多年專注期刊服務(wù),熟悉發(fā)表政策,投稿全程指導(dǎo)。因為專注所以專業(yè)。

保障正刊 雙刊號

推薦期刊保障正刊,評職認(rèn)可,企業(yè)資質(zhì)合規(guī)可查。

用戶信息嚴(yán)格保密

誠信服務(wù),簽訂協(xié)議,嚴(yán)格保密用戶信息,提供正規(guī)票據(jù)。

不成功可退款

如果發(fā)表不成功可退款或轉(zhuǎn)刊。資金受第三方支付寶監(jiān)管,安全放心。