首頁(yè) > 期刊 > 西安電子科技大學(xué)學(xué)報(bào) > 一種改進(jìn)dueling網(wǎng)絡(luò)的機(jī)器人避障方法【正文】

一種改進(jìn)dueling網(wǎng)絡(luò)的機(jī)器人避障方法

機(jī)器人避障深度增強(qiáng)學(xué)習(xí) dueling網(wǎng)絡(luò) 獨(dú)立訓(xùn)練

作者：周翼; 陳渤西安電子科技大學(xué)雷達(dá)信號(hào)處理國(guó)家重點(diǎn)實(shí)驗(yàn)室; 陜西西安710071; 西安電子科技大學(xué)信息感知技術(shù)協(xié)同創(chuàng)新中心; 陜西西安710071

摘要：針對(duì)傳統(tǒng)增強(qiáng)學(xué)習(xí)方法在運(yùn)動(dòng)規(guī)劃領(lǐng)域,尤其是機(jī)器人避障問(wèn)題上存在容易過(guò)估計(jì)、難以適應(yīng)復(fù)雜環(huán)境等不足,提出了一種基于深度增強(qiáng)學(xué)習(xí)的提升機(jī)器人避障性能的新算法模型。該模型將dueling神經(jīng)網(wǎng)絡(luò)架構(gòu)與傳統(tǒng)增強(qiáng)學(xué)習(xí)算法Q學(xué)習(xí)相結(jié)合,并利用兩個(gè)獨(dú)立訓(xùn)練的dueling網(wǎng)絡(luò)處理環(huán)境數(shù)據(jù)來(lái)預(yù)測(cè)動(dòng)作值,在輸出層分別輸出狀態(tài)值和動(dòng)作優(yōu)勢(shì)值,并將兩者結(jié)合輸出最終動(dòng)作值。該模型能處理較高維度數(shù)據(jù)以適應(yīng)復(fù)雜多變的環(huán)境,并輸出優(yōu)勢(shì)動(dòng)作供機(jī)器人選擇以獲得更高的累積獎(jiǎng)勵(lì)。實(shí)驗(yàn)結(jié)果表明,該新算法模型能有效地提升機(jī)器人避障性能。

注：因版權(quán)方要求，不能公開全文，如需全文，請(qǐng)咨詢雜志社

期刊咨詢免費(fèi)咨詢雜志訂閱

西安電子科技大學(xué)學(xué)報(bào)

北大期刊下單

國(guó)際刊號(hào)：1001-2400

國(guó)內(nèi)刊號(hào)：61-1076/TN

雜志詳情

相關(guān)熱門期刊

當(dāng)代舞蹈藝術(shù)研究

北大期刊下單

國(guó)際刊號(hào)：2096-3084

國(guó)內(nèi)刊號(hào)：31-2131/J
歌劇

北大期刊下單

國(guó)際刊號(hào)：1672-3821

國(guó)內(nèi)刊號(hào)：31-1917/J
瘋狂英語(yǔ)·新策略

北大期刊下單

國(guó)際刊號(hào)：2096-8507

國(guó)內(nèi)刊號(hào)：36-1292/H
甲醇與甲醛

北大期刊下單