Page 11 - 2024年第55卷第3期

P. 11

法分别应用于典型场景进行分析比较，各算法计算路径示意图、路径长度以及优缺点如表１所示。堆
石坝碾压作业具有实时性、复杂性的特点，因此本文选用收敛速度更快、能适应复杂环境的Ｄ 算法
作为碾压机转场路径规划算法，并且引入安全避障距离改善Ｄ  算法规划路径距离障碍物过近的
问题。

图５错距示意图图６碾压机转场典型场景

表１算法对比
算法名称Ａ 算法Ｄｉｊｋｓｔｒａ算法Ｄ 算法ＲＲＴ算法

示意图

３３．２１，２８．５６，３２．９２，２８．３０，３３．２１，２８．５６，３１．４０，２５．７１，
路径长度
３３．４１，４４．１８３３．２０，４３．８７３３．４１，４４．１８３３．７９，４４．１６
收敛速度较快、路径相对安全，规划出的路径较优，能够有效避障，
优点
效率高得到的路径较短搜索速度快规划的路径平滑
收敛速度较慢，易陷入局部
规划的路径距离障碍物太近；搜索速度较慢，
缺点规划的路径距离障碍物太近最优解；目标靠近障碍物时
不适用于高维、复杂的环境不适用于节点较多的环境
处理困难

４．３碾压作业强化学习路径规划模型
４．３．１奖励函数奖励函数是环境给智能体反馈的方式，其作用就是对智能体上一步的动作进行评
价，指导智能体找到回报最大的最优策略［２７］。
本研究的任务是对施工仓面进行协同碾压避障作业，在压实质量满足要求前提下通过调整碾压参
数提高碾压效率。基于上述任务设计奖励函数的原则为碾压机群的总体奖励为各碾压机的奖励之和，
当碾压机群完成碾压目标时给予适当奖励，当碾压机群出现不规范动作时给予严厉惩罚。依据稀疏奖
励的思路［２８］设计Ｔ时刻碾压机群整体的奖励函数Ｒ，其表达式如式（１５）所示。
１Ｔ
＋１００，仓面压实质量合格
＋１０，成功分配碾压机群至仓面一侧
－１０００，任一碾压机与障碍物碰撞
Ｒ＝（１５）
１Ｔ
－１０００，任一碾压机驶出仓面
－１０００，碾压机之间碰撞
０，其他情况
奖励函数Ｒ只关注碾压机群最终是否在无碰撞的情况下完成仓面整体碾压任务，对于碾压过程
１Ｔ
— ２５９ —

6 7 8 9 10 11 12 13 14 15 16