Page 52 - 2023年第54卷第7期

P. 52

（１）规模化的单点注意力。对于规模化的单点注意力，输入包括维度的查询和键值ｄ和维度值ｄ。
ｋｖ
通过查询键值得到每个点信息，然后除以槡ｄ，使用ＳｏｆｔＭａｘ函数获取值的权重。通过同时查询计算
ｋ
注意力函数，一起打包到矩阵Ｑ。键和值也一起压缩到矩阵Ｋ和Ｖ。输出矩阵的计算如下：
Ｔ
ＱＫ
( )
Ａｔｔｅｎｔｉｏｎ（Ｑ，Ｋ，Ｖ）＝ｓｏｆｔｍａｘＶ（４）
ｄ
槡ｋ
对于注意力改进的序列到序列算法，计算隐藏状态ｈ与解码时刻的相关性：
ｊ
Ｔ
ｅ＝Ｖ ｔａｎｈ（ＷＳｔ＝１＋Ｕｈ），ｔ，ｊ＝１，２，…，Ｎｉ（５）
ｔ，ｊ
ｊ
式中：ｔａｎｈ为激活函数；Ｖ、Ｗ、Ｕ为模型的训练参数。将ｅ进行归一化后得到隐藏状态ｈ的权重
ｔ，ｊ
ｊ
ａ。动态语义向量的计算公式如下：
ｔ，ｊ
Ｎｉ
ｔ ∑
Ｃ＝ａｈ，ｔ＝１，２，…Ｎｉ（６）
ｔ，ｊｊ
ｊ＝１

图２注意力机制算法示意图图３规模化的单点注意力

（２）多头注意力。注意力机制算法示意图如图２所示，规模化的单点注意力如图３所示。与包含
键、值和查询的单注意力模型ｄ不同，将查询、键和值进行线性投影ｈ次，分别到ｄ和ｄ、ｄ维
ｍｏｄｅｌｋｋｖ
度。在每个查询、键、值版本上提出并行注意力，产出了ｄ维度的输出值。将这些值串联并再次投
ｖ
影，产生最终的结果如图１所示。相比于单头注意力的优势，多头注意力能够允许模型去引入不同位
置的表达信息。多头的注意力机制的计算如下［３４］：
ＭｕｌｔｉＨｅａｄ（Ｑ，Ｋ，Ｖ）＝Ｃｏｎｃａｔ（ｈｅａｄ，…，ｈｅａｄ）ＷＯ（７）
１ｈ
Ｖ
Ｑ
Ｋ
ｈｅａｄ＝Ａｔｔｅｎｔｉｏｎ（ＱＷ，ＫＷ，ＶＷ）（８）
ｉ
ｉ
ｉ
ｉ
Ｔｒａｎｓｆｏｒｍｅｒ以三种不同的方式使用多头注意力：（１）在 “编码器－解码器注意” 层中，查询来自
前一个解码器层，存储键和值来自编码器的输出。这允许解码器中的位置覆盖输入序列中的所有位
置。这模仿了序列到序列模型中的典型编码器－解码器注意力机制。（２）编码器包含自注意力层。在自
注意力层中，所有键、值查询来自同一位置，编码器中的每个位置都可以关注编码器前一层中的所有
位置。（３）解码器中的自注意力层允许解码器中的每个位置关注解码器中与该位置交互的所有位置。
４工程应用

４．１数据说明本研究选取中国西南地区的某混凝土双曲拱坝坝基作为试验地点，实时监控固结灌浆
区域的灌浆压力、流量和密度参数。以固结灌浆５＃坝段灌浆孔ＧＪＢ５－４－１为例，监控的灌浆流量如
图４所示。灌浆流量为进浆流量和出浆流量的差值，实时监控参数的采集间隔为５ｓ，测点数目为
６００个，前５００个测点作为训练集，后１００个测点作为测试集。数据窗口移动说明如图５所示，训
练集数据每次整体移动的个数为输入序列加输出序列的数目，测试集每次移动的个数为输出序列的
数目。

０
— ８１ —

47 48 49 50 51 52 53 54 55 56 57