Page 39 - 2022年第53卷第9期
P. 39

声音信号通过调用手机麦克风采集施工环境声音,生成音频数字信号序列。此外,APP中可以手动录
              入机械编号、仓面信息等以在数据库中匹配机械与多模态数据。
              2.1.2 多模态数据预处理 移动智能手机采集的多模态数据中可能会包含一些异常噪声或缺失值对后
              续的活动状态分类训练造成影响,需要对其进行相应地处理;此外,运动模态数据加速度坐标系与手
              机布设位置有关,为了消除手机布设角度的影响,需要对其中的重力加速度影响进行消除。因此,多
              模态数据的预处理包含重力影响消除、异常值消除、缺失值处理三部分内容,其中异常值消除和缺失
              值处理采用常用的移动窗口方法和指数加权移动平均值( EWMA)方法                               [37] ,重力影响消除是针对运动
              模态数据中的加速度数据做的特殊处理,对其介绍如下。
                  重力影响消除处理仅适用于加速度传感器,目的在于消除三轴加速度中的重力分量。由于重力加
              速度相比于机械运动产生的三轴加速度的频率较小且差距明显,所以采用低通滤波器分离出重力加速
              度分量,然后在原始三轴加速度信号中减去重力分量。其计算过程如下式所示:
                                                g(t) =(1 - α )g(t - 1) + α r(t)                         (1)
                                                     a(t) =r(t) - g(t)                                  (2)
              式( 1)表示通过一阶低通滤波获取重力加速度分量 g(t)的过程,r(t)为采集的原始数据,a(t)为消除
              重力加速度分量后的三轴加速度。α为滤波系数,根据 r(t)的采样时间间隔T和低通滤波截止频率f
                                                                                      s                   c
              计算:
                                                             T s
                                                     α =                                                (3)
                                                        T+ 1? (2 πf)
                                                          s       c
                  根据文献[42],建议使用 0.1到 0.5Hz的截止频
              率来消除数据中 的重 力分 量,原始 加速度采样 频 率 为
              100Hz,则 α取值为 0.03。重力影响消除的部分数据处
              理如图 2所示。
              2.1.3 声音数据梅尔谱图特征提取 从音频文件中读取
              的原始语音信号通常为一维的时域信号,即声波。声波
              很难直观描述频率的变化规律,在声音的分类识别研究
              中,通常通过短时傅里叶变换将声波转换为声谱图,梅
              尔频谱图(Melspectrogram)是最常用的音频识别特征提
              取方式之一      [43] ,可以提供具有类似于人类感知的声音
                                                                           图 2 重力影响消除前后数据对比
              信息。为了充分提取声学信息,本文采用梅尔频谱图分
              别提取原始声音信号以及其一阶导数特征,梅尔频谱图采样参数设置如表 1所示。本研究采用的手机
              麦克风原始采样频率为 48000Hz,为了提高数据的处理速度,降低噪声的影响,首先将初始数据下采
              样至频率 24000Hz。
                  根据表 1,本研究使用了大小为 1024的窗口,相邻窗之间的距离 hop_length设置为 512,相邻窗
              之间有 50%的重叠,梅尔频带的数量设置为 60,一个梅尔频带代表一个频率间隔,人类听觉认为一个
              频带的音高相同。使用以上参数可以获得 60行× 2 列的单位梅尔频谱图。为了充分获取声音信号的信
              息,对于声音信号的一阶导数进行相同的梅尔频谱特征提取操作,可以获得 60 × 2 × 2的双通道输入。
                                                表 1 梅尔频谱图采样参数设置

                  序号               参数名                           参数解释                           取值
                   1             sampling_rate           采样率,每秒对声音的采样频率                       24000Hz
                   2               N_mels              产生的梅尔频带数,即频谱图的高度                         60
                   3              n_window                       窗口大小                           1024
                   4              hop_length                  相邻窗之间的距离                          512
                   5             Time_bucket             时间元,傅里叶变换的时间长度                      512?24000s

                     5
                —  1 0 2 —
   34   35   36   37   38   39   40   41   42   43   44