Page 65 - 2023年第54卷第7期

P. 65

ＷＲＥＲＪＥ学习到更多样的特征。
（２）随机插入。基于随机插入的数据增强方式本质是在规整的数据集中加入一定的噪声。首先定
位语句中的一个词，然后将这个词的同义词插入到语句中的随机位置。此方法可获取更多描述模糊但
实体和关系均正确标注的语句，学习此类语句可使ＷＲＥＲＪＥ拥有从模棱两可的句子中准确识别出水利
工程抢险实体和关系的能力。
将１６５２条有效标注样本，以７∶３的比例划分，得到１１５９条语句作为初始训练集，４９３条语句作
为初始测试集。将以上文本数据增强策略分别应用于初始训练集和初始测试集，两种数据集分别进行
增强以确保突变前后的语句在同一类数据集中，防止发生数据泄露［３４］。经过增强策略后得到包含
３４７１条语句的最终训练集和包含１４８５条语句的最终测试集。最终训练集用于微调Ｔ５，最终测试集用
于测试微调后Ｔ５的性能。此外，从最终训练集中选择包含实体且实体间具有语义关系的２９５３条语句
作为分类器训练集，从最终测试集中选择包含实体且实体间具有语义关系的１２６５条语句作为分类器
测试集。
３．３．３基于Ｂｅｒｔ的分类器训练将Ｓｃｈｅｍａ中定义的６种关系建为语句上的６个离散标签，基于Ｂｅｒｔ
的分类器进行句子级预分类，得到每个输入语句最可能的Ｎ种关系类型，动态提示生成器根据Ｎ种关
系类型生成相应的动态提示序列。
分类器由Ｂｅｒｔ结合线形层组成。存在６种关系类型，线性层的输出维度设置为６。使用分类器训
练集对分类器进行训练。将语句作为Ｂｅｒｔ的输入，从ＣＬＳ字段中获得隐藏向量Ｖ，从ＣＬＳ中获取的
Ｌ
隐藏向量Ｖ相比其他位置能更好的表征句子特征，从而获得更好的分类性能。然后将Ｖ输送到线性
Ｌ
Ｌ
层中，该线性层生成６维向量，每个维度各对应一个关系类型。在反向传播中，使用交叉熵损失调整
Ｂｅｒｔ与线性层参数。损失函数为：
ｒ－１
(
(
Ｌ（ μ ，ｒ）＝－μ ［ｒ］＋ｌｏｇ ∑ ｅｘｐμ ［ｉ］ ) ) （７）
ｉ＝０
）表示线性层的输出结果，ｒ为句子的真实标签。
式中 μ ＝（ μ ０，μ １，…，μ ｒ－１
３．３．４基于Ｔ５的联合抽取器微调ＷＲＥＲＪＥ框架的设计思想是将抽取任务视为序列到序列的生成任
务，生成式语言模型Ｔ５被证实具有捕获丰富语义信息的能力［３５］，并且在各种下游ＮＬＰ任务中表现出
了良好的性能。本文的抽取器基于大型预训练语言模型Ｔ５（Ｔ５－ｖ１．１－ｌａｒｇｅ）实现。
为了微调Ｔ５，将最终训练集中的每个句子转换为ＳＥＬ序列，将其输入动态提示生成器以获取动态
－４
提示序列Ｉ，最后构建带标签的语料库：Ｄ＝｛（Ｉ，ｙ）｝，在带标签的语料库上，使用学习率为１０的
ｅ
Ａｄａｍ优化器和教师强制（ｔｅａｃｈｅｒ－ｆｏｒｃｉｎｇ）交叉熵损失，损失函数为：
ＦＴ ∑
Ｌ＝－ｌｏｇＰ（ｙＩ；θ ｅ，θ ｄ）（８）
（Ｉ，ｙ） ∈Ｄｅ
分别为编码器和解码器参数。
式中 θ ｅ、θ ｄ
４实验设置

４．１数据集数据集共有３组，第１组为由标注员标注出水表２数据集设置
利工程抢险实体和相关语义关系的初始数据集，其中２４７条组别数据集总数训练集条数测试集条数
只包含实体，１４０５条同时包含实体和关系。第２组为应用了
１１６５２１１５９４９３
两种文本数据增强策略之后的最终数据集，其中７４１条只包
２４９５６３４７１１４８５
含实体，４２１８条同时包含实体和关系。第３组为从最终数据３４２１８２９５３１２６５
集中选择的同时包含实体和关系的４２１８条分类器数据集。３
组数据集的训练集和测试集比例为７∶３，具体如表２。
４．２动态提示关系类型最佳数目Ｎ的选择如３．１．２节所述，给定输入句子，动态提示生成器使用基
于Ｂｅｒｔ的分类器对当前输入句子进行预分类，以生成一组候选关系列表，然后将其封装进动态提示序
列中以引导随后的实体关系联合抽取器。此实验的目的是确定动态提示中应包含的关系类型的最佳数
— ８２３ —

60 61 62 63 64 65 66 67 68 69 70