Page 41 - 2022年第53卷第9期

P. 41

卷积层是一种有效的特征提取器，通过在数据上滑动卷积核（也称滤波器）与覆盖数据做卷积计算
来提取特征。本研究使用一维卷积运算提取运动学数据特征图，其计算表达式如下［３９］：
ＮｌＮｌＰｌ
) (
(
ｌ
ｌ
ｌ
ｌ
ｌ
ｌ
Ｆ（ｌ＋１）（ ! ）＝ σ ｂ＋（ｋ（ ! ） Ｆ（ ! ））＝ σ ｂ＋ ( （ｋ（ｐ）Ｆ（ ! －ｐ）） )) （４）
ｊ ∑ ∑
ｊ ∑
ｊｊｆｆｊｆｆ
ｊ＝１ｊ＝１ｐ＝１
ｌ
ｌ
式中：Ｆ（ ! ）表示第ｌ层中的第ｊ个特征图；σ为一个非线性函数；Ｎ表示第ｌ层的特征图数量；ｋ（ ! ）
ｊｌｊｆ
表示从第ｌ层中特征图ｆ向第（ｌ＋１）层的特征图ｊ的卷积操作对应的卷积核；Ｐ是第ｌ层中卷积的长度；
ｌ
ｌ
ｂ为偏置权重。从式（４）可以看出，上一层的特征图和每个卷积核做卷积都会产生下一层的一个特征
图，对应图３中的紫色框框选的特征图与卷积核相乘将会产生下一层的一个特征图。在本研究中处理
运动学传感器数据时，此计算将独立应用于输入层中的传感器变量的每个维度（传感器变量共有６
维），因此，输入层的特征图数量Ｎ＝１。
ｌ
训练深度神经网络的复杂性在于每一层输入的分布在训练过程中会随着前一次的参数变化而变
化，如果网络的激活输出很大，其梯度就很小，使得模型的学习率减小，训练速度降低，甚至可能导
致梯度爆炸的问题。针对以上问题，本研究在每一层卷积中间加入批量归一化层（ＢａｔｃｈＮｏｒｍａｌｉｚａｔｉｏｎ，
ＢＮ）以提高模型的训练速度。ＢＮ是由Ｇｏｏｇｌｅ于２０１５年提出的加速神经网络训练的方法［４４］，它通过求
每一个训练批次数据的均值、方差对该批次训练数据做归一化，使其服从０－１分布，然后通过尺度变
换和偏移以保证模型的训练精度。本研究中在每个卷积层中间加入ＢＮ层，对每个特征图做批量归一化
处理，使得深度学习网络可以用饱和非线性函数进行训练，从而可以接受较大的学习率以提高训练效率。
四层卷积提取特征后，特征信息将被传递到ＬＳＴＭ
细胞单元。ＬＳＴＭ是递归神经网络的变体，主要组成包
括遗忘门、输入门和输出门，输入门可以短暂储存时
序信息，使其在时间序列学习中表现出较强的优势，
ＬＳＴＭ单元的结构如图４所示，ｔ时刻的输入数据Ｘ通
ｔ
过底部传输到模块中，ｔ－１时刻的输出数据ｈ从左边
ｔ－１
传输进模块，两部分数据先经过遗忘门，以决定忘记
一些不重要的信息，之后和上一时刻的核心细胞的输
出Ｃ′一起传输给ｔ时刻的核心记忆细胞；两部分数据再
ｔ
经过输入门将新信息传输给核心记忆细胞，最后经过图４ＬＳＴＭ单元结构图
输出门以决定输出信息，和核心细胞传出的数据相结合，得到最终的输出ｈ用于传输到下一个ＬＳＴＭ
ｔ
模块。相关传输和更新计算过程如式（５）—（１０）所示。
ｆ＝ σ （Ｗ·［ｈ，Ｘ］＋ｂ）（５）
ｔｆｔ－１ｔｆ
ｉ＝ σ （Ｗ·［ｈ，Ｘ］＋ｂ）（６）
ｉ
ｉ
ｔ
ｔ－１
ｔ
Ｃ′ ＝ｔａｎｈ（Ｗ ·［ｈ，Ｘ］＋ｂ）（７）
ｔ－１
Ｃ
ｔ
Ｃ
ｔ
Ｃ＝ｆ Ｃ＋ｉ Ｃ′ （８）
ｔｔｔ－１ｔｔ
ｏ＝ σ （Ｗ ·［ｈ，Ｘ］＋ｂ）（９）
ｔ－１
ｔ
ｔ
ｏ
ｏ
ｈ＝ｏ ｔａｎｈ（Ｃ）（１０）
ｔｔｔ
式中：Ｗ、Ｗ、Ｗ和Ｗ分别为遗忘门、输入门、核心细胞单元和输出门的权重矩阵；ｂ、ｂ、ｂ和
ｆ
ｉ
ｏ
ｆ
ｉ
Ｃ
Ｃ
ｂ分别为遗忘门、输入门、核心细胞单元和输出门的偏置向量；ｆ、ｉ、Ｃ和ｏ分别为ｔ时刻遗忘门、
ｔ
ｔ
ｔ
ｔ
ｏ
输入门、核心细胞单元和输出门的输出状态，Ｃ′为新数据输入的细胞状态；ｔａｎｈ和 σ分别为ｔａｎｈ激活
ｔ
函数和ｓｉｇｍｏｉｄ激活函数。最后，设置一个ｓｏｆｔｍａｘ函数用于输出机械活动识别分类概率。
２．２．２基于深度卷积神经网络的声音模态学习模块该模块使用ＤＣＮＮ模型实现基于声音模态数据的
堆石坝仓面施工碾压机械活动识别，模型输入为２．１节采集的声音信号生成的梅尔频谱图。研究采用
了Ｍａｃｃａｇｎｏ等［４５］于２０２１年提出的用于施工场景音频分类的８层ＤＣＮＮ结构。该模型包含一个６０ × ２ × ２
的张量输入层，五个卷积层用于特征提取，一个Ｆｌａｔｔｅｎ层将卷积获得的特征图一维化，一个具有２００
个神经元的全连接层用于分类学习和一个用于获得分类概率的Ｓｏｆｔｍａｘ函数。所采用的ＤＣＮＮ每一层
５
— １０４ —

36 37 38 39 40 41 42 43 44 45 46