金属矿山 ›› 2025, Vol. 54 ›› Issue (10): 175-181.
刘锦瑶1 谢丽蓉1 卞一帆1 安 毅1,2 杨志勇3,4 黄德启1
LIU Jinyao1 XIE Lirong1 BIAN Yifan1 AN Yi1,2 YANG Zhiyong3,4 HUANG Deqi1
摘要: 为解决自动驾驶矿用卡车在矿山复杂环境下易失去对先前策略适应能力的难题,提出了一种考虑样本
重训练的深度强化学习车道保持控制算法。首先,通过考虑目标网络更新参数的特性,推导出一种周期性经验抽取
重训练模型,将重训练回合间隔纳入到传统目标网络更新参数模型中。然后,为避免噪声对模型的影响,将经验回放
缓冲区设置在较小的抽样范围内,噪声和不相关的经验对模型的影响会被降低,增强极端运行条件下的系统鲁棒性。
最后,考虑到露天矿山典型十字形道路,在CARLA 中设定车辆位置于十字路口,采用固定回合数下得到的平均奖励
作为模拟的关键性能指标进行仿真试验。试验结果表明,提出的周期性重训练深度Q 网络(PR-DQN)策略有效减少
了训练过程中的波动,使模型更快收敛,有效提升模型在非平稳环境任务中的性能,在稳定性和泛化能力上表现出显
著优势。
中图分类号: