Page 6 - 2024年第55卷第3期

P. 6

等［１６］耦合两种类型的元胞形状来区分问题区域和其他区域，提出混合领域元胞自动机模型，实现了点
对点路径探索。Ｔａｒｉｑ等［１７］建立耦合不同形状网格的元胞自动机模型，改善传统方形网格损失过多领
域的不足，解决了多智能体探索未知地形的无碰撞最短路径规划问题。综上所述，元胞自动机能够细
分路径规划环境、针对不同路径规划场景自定义状态转移规则，从而实现填筑仓面信息的储存更新。
当前路径规划在多个领域得到了广泛研究，常规的路径规划方法在面对复杂、未知环境时表现出
步骤繁琐、性能不高等问题，强化学习能够使智能体自我学习得到优化路径。于效民［１８］改进了深度强
化学习算法，通过在神经网络中输入环境信息得到机器人当前状态下所有动作的奖励值，实现了机器
人在动态未知环境中的路径规划。王科银等［１９］通过引入人工势场加快智能体前期路径搜索速度，改进
ε －ｇｒｅｅｄｙ算法调整后期探索和利用的平衡，加快了移动机器人路径规划的收敛速度。Ｃｈｅｎ等［２０］针对
智能船舶路径规划问题，利用Ｑ－ｌｅａｒｎｉｎｇ算法，对距离、障碍物等影响因素设置奖惩，使船舶自我学
习规划得到优化路径。ＳｈｕｈｕａｎＷｅｎ等［２１］在Ｑ－ｌｅａｒｎｉｎｇ算法的Ｑ表赋初值的过程中引入模糊逻辑，增
加了机器人避障效率。Ｗｅｎ等［２２］通过模糊逻辑对ｑ值进行逼近，利用强化学习实现了在连续时间上
对多智能体进行路径规划。Ｌｉ等［２３］在机器人路径规划研究中考虑环境动态因素，耦合 ε －ｇｒｅｅｄｙ探索
策略和Ｂｏｌｔｚｍａｎｎ探索策略，基于启发式思想搜索范围。综上所述，强化学习适用于离散化的路径规
划研究，与元胞自动机填筑仓面模型的离散化特点契合，因此强化学习能够解决碾压机群作业路径规
划中碾压机数量变化等复杂、动态的环境问题。
已有的堆石坝填筑仓面碾压作业路径规划研究针对复杂仓面进行了碾压作业的路径规划［２４－２５］，实
现了碾压机群协同作业的全覆盖避障路径，在此基础上进一步考虑碾压机数量变化、压实质量感知等
动态要素可以提高路径规划模型面对复杂动态的施工环境的适应性。针对上述问题，本文提出了耦合
元胞自动机的强化学习堆石坝碾压作业动态路径规划方法。首先，建立基于元胞自动机的填筑仓面信
息模型，实现了填筑仓面信息的储存，提出了一种条带整体压实质量评价方法，解决了压实质量等仓
面信息的储存更新。然后，建立基于强化学习的碾压作业路径规划模型，结合碾压工艺分析碾压机群
的状态集和动作集，自定义强化学习的奖励函数和探索利用策略，解决了碾压机数量变化的碾压作业
路径分配。最后，耦合上述两个模型，实现综合考虑碾压机数量变化、压实质量感知等动态要素的堆
石坝填筑仓面碾压作业动态路径规划。

２研究框架及数学模型

２．１研究框架研究框架包括研究数据、研究方法、工程应用三部分，如图１所示。

图１研究框架

４
— ２５ —

1 2 3 4 5 6 7 8 9 10 11