Page 11 - 2024年第55卷第3期
P. 11

法分别应用于典型场景进行分析比较,各算法计算路径示意图、路径长度以及优缺点如表 1所示。堆
              石坝碾压作业具有实时性、复杂性的特点,因此本文选用收敛速度更快、能适应复杂环境的 D 算法
              作为碾压机转场路径 规划 算法,并且 引入 安全 避 障 距 离 改 善 D  算 法 规 划 路 径 距 离 障 碍 物 过 近 的
              问题。



















                         图 5 错距示意图                              图 6 碾压机转场典型场景


                                                       表 1 算法对比
                 算法名称           A 算法              Dijkstra算法           D 算法                RRT算法



                 示意图



                               33.21,28.56,       32.92 ,28.30,       33.21 ,28.56,        31.40 ,25.71,
                 路径长度
                               33.41,44.18         33.20,43.87         33.41,44.18          33.79,44.16
                              收敛速度较快、             路径相对安全,           规划出的路径较优,              能够有效避障,
                  优点
                                 效率高              得到的路径较短              搜索速度快              规划的路径平滑
                                                                                      收敛速度较慢,易陷入局部
                         规划的路径距离障碍物太近;            搜索速度较慢,
                  缺点                                              规划的路径距离障碍物太近        最优解;目标靠近障碍物时
                          不适用于高维、复杂的环境        不适用于节点较多的环境
                                                                                             处理困难

              4.3 碾压作业强化学习路径规划模型
              4.3.1 奖励函数 奖励函数是环境给智能体反馈的方式,其作用就是对智能体上一步的动作进行评
              价,指导智能体找到回报最大的最优策略                    [27] 。
                  本研究的任务是对施工仓面进行协同碾压避障作业,在压实质量满足要求前提下通过调整碾压参
              数提高碾压效率。基于上述任务设计奖励函数的原则为碾压机群的总体奖励为各碾压机的奖励之和,
              当碾压机群完成碾压目标时给予适当奖励,当碾压机群出现不规范动作时给予严厉惩罚。依据稀疏奖
              励的思路     [28] 设计 T时刻碾压机群整体的奖励函数 R ,其表达式如式(15)所示。
                                                             1T
                                               + 100,仓面压实质量合格
                                               + 10 ,成功分配碾压机群至仓面一侧
                                               - 1000,任一碾压机与障碍物碰撞
                                         R =                                                           ( 15)
                                           1T
                                               - 1000 ,任一碾压机驶出仓面
                                               - 1000 ,碾压机之间碰撞
                                               0,其他情况
                  奖励函数 R 只关注碾压机群最终是否在无碰撞的情况下完成仓面整体碾压任务,对于碾压过程
                             1T
                                                                                                —  2 5 9 —
   6   7   8   9   10   11   12   13   14   15   16