Page 64 - 2023年第54卷第7期
P. 64
3.2 实体关系联合抽取器
3.2.1 结构化抽取语言 异构任务编码成统一表示形式是
将实体和关系进行联合抽取需要解决的问题之一。采用一
种结构化抽取语言(StructuredExtractionLanguage,SEL) [24] ,
将实体抽取任务和关系抽取任务的结构编码成统一表示形
式,从而可以在序列到序列的生成框架中统一建模异构的
图 3 结构化抽取语言图示
水利工程抢险实体抽取和关系抽取任务。输入序列指动态
提示序列,生成序列指 SEL。SEL序列是由 “SpotName、AssoName、InfoSpan” 三种元素组成的层
次结构,来对不同信息抽取任务的结构进行编码。其中 “ SpotName” 表示实体类型, “AssoName”
表示关系类型,“ InfoSpan” 表示特定类型下的实例对象。实例如图 3。
3.2.2 SEL序列生成 水利工程抢险实体和关系联合抽取器是一个序列到序列的生成框架,生成过程
可表示为:
ERJE([I,I,…,I]) =[y,y,…,y] (3)
1
y
2
1
2
I
式中:ERJE指实体关系联合抽取器,由基于 Transformer的 T5实现;I = [I,I,…,I]为输入的动
1 2 I
态提示序列;Y = [y,y,…,y]为 生成 序 列,即 包含 水 利 工 程 抢 险 实 体 和 关 系 的 SEL序 列。在
1 2 y
WRERJE框架中,将动态提示生成器所生成的序列 I输入到 T5中,由 T5生成 Y序列,从而获得水利
工程抢险实体和关系的三元组知识。
总的来说,WRERJE使用 “编码- 解码” 思路进行工作。具体为将动态提示序列 I输送到 T5,由
T5计算 I = [I,I,…,I]的隐向量 H,计算过程可表示为:
I
2
1
H = Encoder (I,I,…,I) (4)
1 2 I
式中 Encoder即编码器,采用了 Transformer架构中的 Encoder模块。接着 T5以自回归方式将动态提示
序列 I解码为 SEL序列。在解码过程中的 i状态下,T5生成 SEL序列中 i状态下的 y和解码器当前状
i
d
态 h,具体表示为:
i
d
d
d
d
y,h= Decoder ([H;h,h,…,h ]) (5)
i
i
2
1
i - 1
式中 Dncoder即解码器,是 Transformer架构中的 Dncoder模块,用于预测 y的条件概率 P,概率 P的
i
具体表达式为:
P = P(y y,y,…,y ,I) (6)
1
i
(i - 1 )
2
式中:y,y,…,y 为前 i - 1 个输出;I为输入到 T5的动态提示序列。
1 2 (i - 1)
3.3 主干模型训练
3.3.1 数据预处理 根据 2.2节中定义的 Schema对收集到的目标语句进行标注,标注的同时进一步
验证句子是否准确包含水利工程抢险实体以及实体间语义关系。标注时不要求每个句子中实体之间
都必须包含关系,只要该句子包含水利工程抢险相关实体,即认为该句子可用。标注员明确具有水
利工程抢险领域的专业知识,可以对语句中是否含有水利工程抢险相关实体及语义关系进行验证并
识别。为保证数据标注的一致性,将 6名标注员分为 3组,每组内 2名标注员标注相同的句子。在
标注完成之后由 2名作者来处理标注结果的冲突,使用 kappa系数来衡量 结果 一致 性,计 算 kappa
系数值为 0.837,即认为标注结果几乎一致 [33] 。最终得到 1652条有 效标 注样 本,其 中 247条只包
含实体,实体间不存在语义关联,1405条包含实体同时实体间具有语义关系。
3.3.2 数据增强 规范的标注数据集让 WRERJE学习到普通情况下水利工程抢险实体与其语义关系特
征。由于汉字的多义性和文字输入的随机性,非正式的水利工程抢险文本难免存在随机错别字或描述
模糊等噪声现象。为了提高 WRERJE从噪声数据中识别目标实体及其语义关系的能力,设计了两种文
本数据增强策略以增加训练数据中的噪声数据,提升模型的鲁棒性。
( 1)依赖动词替换。使用 PyLTP来定位语句中的动词,然后用同义词替换这些动词。例如在 “可
用棉被顺坡铺盖” 中,将 “铺盖” 替换为 “覆盖”,在 “上面再压土袋” 中将 “压” 替换为 “堆”。
这些替换 并 不 会 改 变 句 子 语 义,因 此 可 以 基 于 此 方 式 获 得 同 一 关 系 类 型 的 更 多 不 同 的 描 述,使
— 8 2 —
2