Page 65 - 水利学报2025年第56卷第3期
P. 65

表 4 非结构化文本实体关系模式
                            标准共现实体对                     实体关系              标准共现实体对               实体关系
                 (水利设施,水利设施)(工程措施,工程措施)                   包含           (险情表现,险情级别)                属于
                    (工程措施,物资)(工程措施,机械)                    需要             (水利设施,险情)                存在
                         (工程措施,措施地点)                      位置             (险情,工程措施)              应对方法
                           (险情,险情表现)                      存在              (险情,定义)                 定义
                            (险情,原则)                     处理原则


                  选用水利行业标准《水利水电工程技术术语》(SL26—2012)和百科信息框数据作为补充数据。其
              中 SL26—2012包含水文、地质、河道整治、水工建筑物等各类水利专业术语的定义与英文名称,具
              有权威的参考价值与全面的知识扩展能力。该标准编写格式统一,半结构化特征明显,可通过解析编
              写格式利用正则表达式提取领域术语。随后利用百科信息框丰富的知识储备,采用爬虫算法挖掘每个
              术语的可扩展关系,同时获取关系对应的尾实体构建三元组知识链,通过相似关系合并与知识链整合
              实现对领域非结构化数据的知识扩充与补全。
              3.5 知识存储与更新 考虑应用场景选择合理方式储存结构化知识,为知识管理、可视化与决策辅助
              提供便利。按照存储方式可分为表结构存储和图结构存储两大类。表结构存储解决了表单数据量过大
              问题,但在数据类型较多时,表间数据连接开销较大,不利于数据快速检索与管理。图结构存储以节
              点和边的形式存储数据与数据关联,允许使用数据中包含的语法和语义结构信息检索存储内容,近年
              来逐渐受到研究人员青睐            [3,15,33] 。Neo4j是一个开源的图数据库存储系统,具有简单直观,支持 Python
              管理等优点,在数据增删查改方面具有明显优势,故选择 Neo4j存储与更新防汛抢险知识。


              4 方法验证与分析


              4.1 数据收集与处理 为验证本文所提防汛抢险知识图谱(FloodDefenseandRescueKnowledgeGraph,
              FDR - KG)构建方法的可行性,以《堤防工程抢险》《防汛抢险技术手册》《水利工程防汛抢险实用手册》
              《防汛抢险典型案例实操手册》为非结构化数据来源,结合中国知网关于防汛抢险的论文与权威机构公
              众号发布的防汛抢险相关推文,经过专家筛选、去重后得到 1101段高质量防汛抢险数据集。剔除段
              落中停用词和特殊符号,按照 BIO格式                 [34] 进行人工标注,采用人工交叉检验保证标注的一致性与标
              注结果的可靠性。共得到实体词 5026个,各类别实体数量如图 4所示。将标注结果按照 3∶1∶1划分
              训练集、验证集与测试集用于模型训练。
              4.2 知识抽取结果与分析 基于 Pytorch深度学习框架搭建防汛抢险实体识别模型,模型超参数如
              表 5所示。选用 precision、recall、F1值评价模型抽取效果                [17] 。从图 4可以看出,防汛抢险各类实体数
              量差异较大,部分类型实体数量偏少,不足 150条,为实体识别模型学习领域文本实体表达模式带来
              了挑战。采用 3.2节提出的实体数据增强方法将训练集数据增强 4倍,用以训练所提 BERT_BiLSTM_
              CNN实体知识抽取模型,利用验证集计算损失函数并通过反向传播迭代优化模型参数,保存结果最优
              的模型。为验证数据增强效果,在数据增强前后使用所提模型进行三次独立实验,计算各指标平均值
              如图 5所示。数据增强前除 “险情级别” 类别由于文本描述形式单一,模型识别 F1值较高之外,训
              练样本较少类别的 F1值普遍偏低。数据增强后整体 F1值提升了 4.73%,原始数据量较少的实体类型
              的 F1值提升尤为明显,证明了数据增强对于数据量少、分布不均衡的小样本作用显著。究其原因,
              数据增强通过 扩充 数据、人为 引 入 噪 声 等,增 加 了 训 练 数 据 多 样 性,提 升 了 模 型 识 别 精 度 与 抗 噪
              能力。
                  为进一步验证所提模型性能,使用增强后数据集展开模型对比。以 BiLSTM_CRF和 BERT_BiLSTM_
              CRF模型为基线,与所提模型开展对比实验。从图 5可以看出,所提模型在 3个指标上均获得了最佳
              表现。从 F1值来看,使用预训练策略的 BERT_BiLSTM_CRF模型比 BiLSTM_CRF模型高 9.87%,表明

                                                                                                —  3 4 7 —
   60   61   62   63   64   65   66   67   68   69   70