Page 65 - 水利学报2025年第56卷第3期

P. 65

表４非结构化文本实体关系模式
标准共现实体对实体关系标准共现实体对实体关系
（水利设施，水利设施）（工程措施，工程措施）包含（险情表现，险情级别）属于
（工程措施，物资）（工程措施，机械）需要（水利设施，险情）存在
（工程措施，措施地点）位置（险情，工程措施）应对方法
（险情，险情表现）存在（险情，定义）定义
（险情，原则）处理原则

选用水利行业标准《水利水电工程技术术语》（ＳＬ２６—２０１２）和百科信息框数据作为补充数据。其
中ＳＬ２６—２０１２包含水文、地质、河道整治、水工建筑物等各类水利专业术语的定义与英文名称，具
有权威的参考价值与全面的知识扩展能力。该标准编写格式统一，半结构化特征明显，可通过解析编
写格式利用正则表达式提取领域术语。随后利用百科信息框丰富的知识储备，采用爬虫算法挖掘每个
术语的可扩展关系，同时获取关系对应的尾实体构建三元组知识链，通过相似关系合并与知识链整合
实现对领域非结构化数据的知识扩充与补全。
３．５知识存储与更新考虑应用场景选择合理方式储存结构化知识，为知识管理、可视化与决策辅助
提供便利。按照存储方式可分为表结构存储和图结构存储两大类。表结构存储解决了表单数据量过大
问题，但在数据类型较多时，表间数据连接开销较大，不利于数据快速检索与管理。图结构存储以节
点和边的形式存储数据与数据关联，允许使用数据中包含的语法和语义结构信息检索存储内容，近年
来逐渐受到研究人员青睐［３，１５，３３］。Ｎｅｏ４ｊ是一个开源的图数据库存储系统，具有简单直观，支持Ｐｙｔｈｏｎ
管理等优点，在数据增删查改方面具有明显优势，故选择Ｎｅｏ４ｊ存储与更新防汛抢险知识。

４方法验证与分析

４．１数据收集与处理为验证本文所提防汛抢险知识图谱（ＦｌｏｏｄＤｅｆｅｎｓｅａｎｄＲｅｓｃｕｅＫｎｏｗｌｅｄｇｅＧｒａｐｈ，
ＦＤＲ－ＫＧ）构建方法的可行性，以《堤防工程抢险》《防汛抢险技术手册》《水利工程防汛抢险实用手册》
《防汛抢险典型案例实操手册》为非结构化数据来源，结合中国知网关于防汛抢险的论文与权威机构公
众号发布的防汛抢险相关推文，经过专家筛选、去重后得到１１０１段高质量防汛抢险数据集。剔除段
落中停用词和特殊符号，按照ＢＩＯ格式［３４］进行人工标注，采用人工交叉检验保证标注的一致性与标
注结果的可靠性。共得到实体词５０２６个，各类别实体数量如图４所示。将标注结果按照３∶１∶１划分
训练集、验证集与测试集用于模型训练。
４．２知识抽取结果与分析基于Ｐｙｔｏｒｃｈ深度学习框架搭建防汛抢险实体识别模型，模型超参数如
表５所示。选用ｐｒｅｃｉｓｉｏｎ、ｒｅｃａｌｌ、Ｆ１值评价模型抽取效果［１７］。从图４可以看出，防汛抢险各类实体数
量差异较大，部分类型实体数量偏少，不足１５０条，为实体识别模型学习领域文本实体表达模式带来
了挑战。采用３．２节提出的实体数据增强方法将训练集数据增强４倍，用以训练所提ＢＥＲＴ＿ＢｉＬＳＴＭ＿
ＣＮＮ实体知识抽取模型，利用验证集计算损失函数并通过反向传播迭代优化模型参数，保存结果最优
的模型。为验证数据增强效果，在数据增强前后使用所提模型进行三次独立实验，计算各指标平均值
如图５所示。数据增强前除 “险情级别” 类别由于文本描述形式单一，模型识别Ｆ１值较高之外，训
练样本较少类别的Ｆ１值普遍偏低。数据增强后整体Ｆ１值提升了４．７３％，原始数据量较少的实体类型
的Ｆ１值提升尤为明显，证明了数据增强对于数据量少、分布不均衡的小样本作用显著。究其原因，
数据增强通过扩充数据、人为引入噪声等，增加了训练数据多样性，提升了模型识别精度与抗噪
能力。
为进一步验证所提模型性能，使用增强后数据集展开模型对比。以ＢｉＬＳＴＭ＿ＣＲＦ和ＢＥＲＴ＿ＢｉＬＳＴＭ＿
ＣＲＦ模型为基线，与所提模型开展对比实验。从图５可以看出，所提模型在３个指标上均获得了最佳
表现。从Ｆ１值来看，使用预训练策略的ＢＥＲＴ＿ＢｉＬＳＴＭ＿ＣＲＦ模型比ＢｉＬＳＴＭ＿ＣＲＦ模型高９．８７％，表明

— ３４７ —

60 61 62 63 64 65 66 67 68 69 70