Page 61 - 2023年第54卷第7期
P. 61
应所有句型的规则变得困难;二是基于序列标注的方法 [13 - 15] ,该方法使用传统深度学习模型进行实体
抽取和关系抽取,需要大规模标注样本完成模型从无到有的训练 [16] ,而各个专业领域的信息抽取研究
普遍存在标注样本稀缺问题,传统深度学习模型不具备先验知识,训练样本类型的局限性导致模型所
能处理的问题类型有限。手工为大量语句标注实体和关系存在着巨大的人力成本,且远程监督获取标
[18]
注数据的方法 [17] 需要现存知识库这一前提,在水利工程抢险任务上并不满足。2017年 Transformer
的提出带来了 ERNIE [19] 、T5 [20] 等大型预训练语言模型,预训练 + 小样本微调的迁移学习思想在垂直
领域的关系抽取任务上得到了广泛关注 [21] 。
为了减轻传统方法带来的人力成本,本文将水利工程抢险实体和关系抽取视为从序列到序列的生
成任务,提出了一种使用大型预训练语言模型( T5 - v.1.1 - large)联合提取水利工程抢险实体和关系的
方法。与传统深度学习模型不同,T5是 Google利用其搜索引擎上浩如烟海的开放域语料完成预训练
并开源的语言模型 [20] ,存储了大量先验知识,可以作为现实世界实体和关系的神经知识库 [22] 。此外,
T5可以提供更好的模型初始化和强大的学习能力 [23] 。通过使用一小组任务相关的训练数据对 T5进行
微调,通用语义信息结合水利工程抢险领域语义信息,也即是预训练(通用信息) + 微调(领域信息)的
最新范式,可以使 T5具有识别出当前语句中存在的水利工程抢险实体和关系的能力。例如:“每隔 10
分钟巡视一次,同时,对滑坡处 24小时看护”,句子中通用时间信息(10分钟、24小时)与水利工程
抢险领域知识(巡视、滑坡处)结合,可提取出 “隔 10分钟巡视” 与 “滑坡处 24小时看护” 的完整
实体,并通过语义分析出二者之间的 “协作” 关系,从而得到意思表达完整的 〈隔 10分钟巡视,协
作,滑坡处 24小时看护〉 三元组结构化知识。此外,当使用一小组任务相关数据激活大模型对水利
工程抢险知识的认知后,T5具有先验知识的优势在提取非连续实体时表现尤为明显。例如: “库区出
现漂船、漂木等难以通过泄洪道的漂移物体”,句子中并列语义结合 “库区、漂移物体” 等领域信息,
可提取出 “库区漂船、库区漂木” 这些在传统方法中难以提取的非连续险情实体。在近期通用信息抽
取( UIE) [24] 工作的启发下,本文采用了将实体和关系进行联合抽取的统一框架。然而,UIE中的 T5
面对复杂句子,尤其是包含多种实体类型和关系的冗长且模棱两可的句子时会出现错误,因为它只使
用包含所有关系类型的静态提示序列来指导 T5识别出输入语句中的目标实体和关系。当面对复杂句
子时,需要识别的关系类型越多,它所遭受的噪音就越多。针对静态提示的噪声问题,本文受提示调
整方法 [25] 启发设计了动态提示生成器,它根据实际输入语句中潜在的少量关系为当前输入语句生成动
态提示,而不是对所有句子都使用相同的静态提示。由于动态提示缩小了提示范围,过滤掉了造成干
扰的关系类型,降低了噪声,因此可以提高水利工程抢险实体和关系的提取精度。融合 “联合抽取”
和 “动态提示” 思想,设计了水利工程抢险实体和关系联合抽取框架———WRERJE,它由动态提示生成
器和实体关系联合抽取器两部分组成。动态提示生成器的内核是基于预训练掩码语言模型( BERT) [26] 的
文本分类器,用于对输入语句进行预分类,每一个类别代表水利工程抢险实体之间的一类关系。动态
提示生成器根据当前语句中潜在的前 N个关系生成动态提示序列,将此序列输入到由 T5实现的实体
关系联合抽取器中。针对水利工程抢险领域标注样本稀少问题,本文采取基于依赖动词替换和基于随
机插入的方法进行领域数据增强 [27 - 28] ,以获得相对多的标注样本来提升模型鲁棒性 [29] 。最后以水库
防洪任务中的堤防和大坝等水利工程文本为主要实验数据,通过实验对 WRERJE性能进行测试,同时
评估了两种文本数据增强策略的有效性。
2 领域知识建模
2.1 初始语料收集 本文以堤防防汛抢险手册、水利工程施工技术要点、近 20个水库的防洪预案文
本作为初始数据源。所需的目标语句为水利工程抢险领域的非结构化文本描述,首先对文本中存在的
冗余描述进行段落级筛选,利用 PyLTP对筛选后得到的目标段落以句号为分隔符进行分句处理。为了
确保所得句子的有效性,对其进行句子级别的二次处理,处理指对于以句号分隔后仍然过长的句子,
以句子中的逗号为分隔符做二次分句,并过滤掉与水利工程抢险知识无关的描述。处理后的目标语句
— 8 1 9 —