Page 65 - 水利学报2025年第56卷第3期
P. 65
表 4 非结构化文本实体关系模式
标准共现实体对 实体关系 标准共现实体对 实体关系
(水利设施,水利设施)(工程措施,工程措施) 包含 (险情表现,险情级别) 属于
(工程措施,物资)(工程措施,机械) 需要 (水利设施,险情) 存在
(工程措施,措施地点) 位置 (险情,工程措施) 应对方法
(险情,险情表现) 存在 (险情,定义) 定义
(险情,原则) 处理原则
选用水利行业标准《水利水电工程技术术语》(SL26—2012)和百科信息框数据作为补充数据。其
中 SL26—2012包含水文、地质、河道整治、水工建筑物等各类水利专业术语的定义与英文名称,具
有权威的参考价值与全面的知识扩展能力。该标准编写格式统一,半结构化特征明显,可通过解析编
写格式利用正则表达式提取领域术语。随后利用百科信息框丰富的知识储备,采用爬虫算法挖掘每个
术语的可扩展关系,同时获取关系对应的尾实体构建三元组知识链,通过相似关系合并与知识链整合
实现对领域非结构化数据的知识扩充与补全。
3.5 知识存储与更新 考虑应用场景选择合理方式储存结构化知识,为知识管理、可视化与决策辅助
提供便利。按照存储方式可分为表结构存储和图结构存储两大类。表结构存储解决了表单数据量过大
问题,但在数据类型较多时,表间数据连接开销较大,不利于数据快速检索与管理。图结构存储以节
点和边的形式存储数据与数据关联,允许使用数据中包含的语法和语义结构信息检索存储内容,近年
来逐渐受到研究人员青睐 [3,15,33] 。Neo4j是一个开源的图数据库存储系统,具有简单直观,支持 Python
管理等优点,在数据增删查改方面具有明显优势,故选择 Neo4j存储与更新防汛抢险知识。
4 方法验证与分析
4.1 数据收集与处理 为验证本文所提防汛抢险知识图谱(FloodDefenseandRescueKnowledgeGraph,
FDR - KG)构建方法的可行性,以《堤防工程抢险》《防汛抢险技术手册》《水利工程防汛抢险实用手册》
《防汛抢险典型案例实操手册》为非结构化数据来源,结合中国知网关于防汛抢险的论文与权威机构公
众号发布的防汛抢险相关推文,经过专家筛选、去重后得到 1101段高质量防汛抢险数据集。剔除段
落中停用词和特殊符号,按照 BIO格式 [34] 进行人工标注,采用人工交叉检验保证标注的一致性与标
注结果的可靠性。共得到实体词 5026个,各类别实体数量如图 4所示。将标注结果按照 3∶1∶1划分
训练集、验证集与测试集用于模型训练。
4.2 知识抽取结果与分析 基于 Pytorch深度学习框架搭建防汛抢险实体识别模型,模型超参数如
表 5所示。选用 precision、recall、F1值评价模型抽取效果 [17] 。从图 4可以看出,防汛抢险各类实体数
量差异较大,部分类型实体数量偏少,不足 150条,为实体识别模型学习领域文本实体表达模式带来
了挑战。采用 3.2节提出的实体数据增强方法将训练集数据增强 4倍,用以训练所提 BERT_BiLSTM_
CNN实体知识抽取模型,利用验证集计算损失函数并通过反向传播迭代优化模型参数,保存结果最优
的模型。为验证数据增强效果,在数据增强前后使用所提模型进行三次独立实验,计算各指标平均值
如图 5所示。数据增强前除 “险情级别” 类别由于文本描述形式单一,模型识别 F1值较高之外,训
练样本较少类别的 F1值普遍偏低。数据增强后整体 F1值提升了 4.73%,原始数据量较少的实体类型
的 F1值提升尤为明显,证明了数据增强对于数据量少、分布不均衡的小样本作用显著。究其原因,
数据增强通过 扩充 数据、人为 引 入 噪 声 等,增 加 了 训 练 数 据 多 样 性,提 升 了 模 型 识 别 精 度 与 抗 噪
能力。
为进一步验证所提模型性能,使用增强后数据集展开模型对比。以 BiLSTM_CRF和 BERT_BiLSTM_
CRF模型为基线,与所提模型开展对比实验。从图 5可以看出,所提模型在 3个指标上均获得了最佳
表现。从 F1值来看,使用预训练策略的 BERT_BiLSTM_CRF模型比 BiLSTM_CRF模型高 9.87%,表明
— 3 4 7 —