Page 41 - 2022年第53卷第9期
P. 41

卷积层是一种有效的特征提取器,通过在数据上滑动卷积核(也称滤波器)与覆盖数据做卷积计算
              来提取特征。本研究使用一维卷积运算提取运动学数据特征图,其计算表达式如下                                        [39] :
                                           N l                       N l  P l
                                                           ) (
                                      (
                                                      l
                                               l
                                        l
                                                                  l
                                                                                   l
                                                                             l
                           F (l + 1 ) ( ! ) = σ b+ (k( ! ) F( ! )) = σ b+  (  (k(p)F( ! - p)) ))       (4)
                                                                  j ∑ ∑
                                        j ∑
                             j                 j f    f                      j f   f
                                          j =1                      j =1  p =1
                                                                                                       l
                      l
              式中:F( ! )表示第 l层中的第 j个特征图;σ为一个非线性函数;N表示第 l层的特征图数量;k( ! )
                      j                                                     l                          jf
              表示从第 l层中特征图 f向第(l + 1 )层的特征图 j的卷积操作对应的卷积核;P是第 l层中卷积的长度;
                                                                                     l
               l
              b为偏置权重。从式(4)可以看出,上一层的特征图和每个卷积核做卷积都会产生下一层的一个特征
              图,对应图 3中的紫色框框选的特征图与卷积核相乘将会产生下一层的一个特征图。在本研究中处理
              运动学传感器数据时,此计算将独立应用于输入层中的传感器变量的 每 个 维度 (传 感器 变量 共有 6
              维),因此,输入层的特征图数量 N = 1 。
                                               l
                  训练深度神经网络的复杂性在于每一层输入的分布在训练过程中会随着前一次的参数变化而变
              化,如果网络的激活输出很大,其梯度就很小,使得模型的学习率减小,训练速度降低,甚至可能导
              致梯度爆炸的问题。针对以上问题,本研究在每一层卷积中间加入批量归一化层( BatchNormalization,
              BN)以提高模型的训练速度。BN是由 Google于 2015年提出的加速神经网络训练的方法                                  [44] ,它通过求
              每一个训练批次数据的均值、方差对该批次训练数据做归一化,使其服从 0 - 1分布,然后通过尺度变
              换和偏移以保证模型的训练精度。本研究中在每个卷积层中间加入 BN层,对每个特征图做批量归一化
              处理,使得深度学习网络可以用饱和非线性函数进行训练,从而可以接受较大的学习率以提高训练效率。
                  四层卷积提取特征后,特征信息将被传递到 LSTM
              细胞单元。LSTM是递归神经网络的变体,主要组成包
              括遗忘门、输入门和输出门,输入门可以短暂储存时
              序信息,使 其 在 时 间 序 列 学 习 中 表 现 出 较 强 的 优 势,
              LSTM单元的结构如图 4所示,t时刻的输入数据 X通
                                                              t
              过底部传输到模块中,t - 1时刻的输出数据 h 从左边
                                                        t - 1
              传输进模块,两部分数据先经过遗忘门,以决定忘记
              一些不重要的信息,之后和上一时刻的核心细胞的输
              出 C′一起传输给 t时刻的核心记忆细胞;两部分数据再
                  t
              经过输入门将新信息传输给核心记忆细胞,最后经过                                          图 4 LSTM单元结构图
              输出门以决定输出信息,和核心细胞传出的数据相结合,得到最终的输出 h用于传输到下一个 LSTM
                                                                                    t
              模块。相关传输和更新计算过程如式(5)—(10)所示。
                                                 f = σ (W·[h ,X] + b)                                   (5)
                                                  t      f   t - 1  t  f
                                                 i = σ (W·[h ,X] + b)                                   (6)
                                                         i
                                                                      i
                                                                  t
                                                             t - 1
                                                  t
                                               C′ = tanh(W ·[h ,X] + b)                                 (7)
                                                              t - 1
                                                          C
                                                                    t
                                                                        C
                                                 t
                                                    C= f C + i C′                                     (8)
                                                      t  t   t - 1  t  t
                                                 o= σ (W ·[h ,X] + b)                                   (9)
                                                             t - 1
                                                                  t
                                                  t
                                                         o
                                                                      o
                                                     h= o tanh(C)                                     (10)
                                                      t  t        t
              式中:W 、W 、W 和 W 分别为遗忘门、输入门、核心细胞单元和输出门的权重矩阵;b、b、b和
                                                                                                f
                                                                                                    i
                                     o
                      f
                           i
                               C
                                                                                                        C
              b分别为遗忘门、输入门、核心细胞单元和输出门的偏置向量;f、i、C和 o分别为 t时刻遗忘门、
                                                                              t
                                                                                  t
                                                                                      t
                                                                          t
               o
              输入门、核心细胞单元和输出门的输出状态,C′为新数据输入的细胞状态;tanh和 σ分别为 tanh激活
                                                         t
              函数和 sigmoid激活函数。最后,设置一个 softmax函数用于输出机械活动识别分类概率。
              2.2.2 基于深度卷积神经网络的声音模态学习模块 该模块使用 DCNN模型实现基于声音模态数据的
              堆石坝仓面施工碾压机械活动识别,模型输入为 2.1节采集的声音信号生成的梅尔频谱图。研究采用
              了 Maccagno等   [45] 于 2021年提出的用于施工场景音频分类的 8层 DCNN结构。该模型包含一个 60 × 2 × 2
              的张量输入层,五个卷积层用于特征提取,一个 Flatten层将卷积获得的特征图一维化,一个具有 200
              个神经元的全连接层用于分类学习和一个用于获得分类概率的 Softmax函数。所采用的 DCNN每一层
                     5
                —  1 0 4 —
   36   37   38   39   40   41   42   43   44   45   46