Page 13 - 2024年第55卷第3期
P. 13

更多探索的置信区间上限 UCB策略作为强化学习的探索利用策略。
              4.4 耦合元胞自动机的强化学习碾压作业路径规划
              方法 结合前文内容,可分析耦合元胞自动机的强化
              学习堆石坝填筑仓面碾压作业动态路径规划方法的应
              用流程如下,参见图 7。
                  ( 1)现场 测 量 队 测 量 得 到 仓 面 边 界 与 障 碍 物 坐
              标,输入坐标得到仓面 C;
                  ( 2)将仓面 C划分为 i个碾压条带,每个条带宽
              度为 L,相邻条带之间的搭接宽度为 W;
                  ( 3)n台碾压机通过考虑安全避障的 D 算法随
              机前往任一可碾压条带起点,开始以碾压速度 v进行
              碾压作业,每个元胞通过 3.2节状态转移规则储存更
              新碾压参数;
                  (4)将元胞储存的碾压参数和材料级配输入压实
              质量评价模型,得到仓面干密度云图,提取各元胞的
                                                                  图 7 耦合元胞自动机与强化学习的路径规划方法应用流程
              干密度,通过 3.3节提出的方法评价条带整体压实质
              量,结合碾压机位置和条带压实质量组成各碾压机状态 S;
                                                                  n
                  (5)应用置信区间上限 UCB策略从各碾压机在其状态下的动作集中选择动作;
                  (6)实时更新仓面元胞自动机模型和干密度云图;
                  ( 7)调用强化学习的奖励函数得到各碾压机的即时奖励 r ;
                                                                     2Ti
                  (8)计算碾压机群的稀疏奖励奖励 R 和总体子奖励 R ;
                                                   1T
                                                                   2T
                  ( 9)计算碾压机群总奖励 R ;
                                           总
                  ( 10)重复步骤(1)到步骤(9)迭代 m次进行学习得到累积奖励最优的碾压路径。

              5 工程应用


                  本研究以西南地区某Ⅰ等大(1)型工程为例,该工程为砾石土心墙堆石坝,大坝主体工程分为堆
              石区、心墙区、过渡区等分区,其中堆石区和过渡区应用搭接法进行碾压作业。
              5.1 碾压作业动态路径规划方法应用效果 选取该工程某一应用搭接法施工的填筑仓面,通过现场碾
              压质量实时监控系统可知,该仓面存在多个障碍物,在施工过程中由于施工组织要求碾压机数量发生
              变化。将本方法应用于该仓面,验证本方法能够综合考虑碾压机数量变化、压实质量感知等动态要素
              进行碾压作业路径规划。
                  通过现场测量可获得该仓面边界及障碍物坐标,通过
              元胞自动机建立填筑仓面信息模型,如图 8所示。
                  现场碾压过程中,碾压机群中碾压机 的数 量会因
              现场施工组织协变化,因此设置碾压机数量控制面板
              用以模拟碾压机数量的变化。
                  模拟堆石坝填筑仓面碾压作业过程,在仓面环境内
              设置一个随机移动的动态障碍物,如图 9黑色方块所示。
              首先在开始阶段组织 4台碾压机进行作业,碾压速度采
              用本工程现场实际作业的平均碾压速度为 2.5km?h,在
              碾压第 30分钟、第 60分钟、第 90分钟、第 120分钟
              将碾压机群中碾压机的数量分别 - 1 、 - 1 、 + 1 、 + 1 ,最
              终碾压机群完成施工的碾压距离为 26688m,该仓面                                        图 8 典型填筑仓面

                                                                                                —  2 6 1 —
   8   9   10   11   12   13   14   15   16   17   18