本發(fā)明公開了一種基于決策轉(zhuǎn)換器的雙評論器正則化與動(dòng)態(tài)系數(shù)調(diào)度的離線約束強(qiáng)化學(xué)習(xí)方法,涉及機(jī)器學(xué)習(xí)與智能控制技術(shù)領(lǐng)域。該方法面向安全敏感的機(jī)器人控制任務(wù),利用歷史離線軌跡數(shù)據(jù)作為訓(xùn)練樣本;在約束決策轉(zhuǎn)換器主干網(wǎng)絡(luò)基礎(chǔ)上,引入獎(jiǎng)勵(lì)評論器與成...