Page 60 - 水利学报2025年第56卷第3期
P. 60
冯均等 [12 - 13] 总结了知识图谱在各垂直领域的研究现状,指明了构建水利知识图谱的重难点与研究框
架。段浩等 [14] 采用双向长短时记忆网络(Bi - directionalLongShort - Term Memory,Bi - LSTM)与条件随
机场( ConditionalRandom Fields,CRF)识别非结构化文本信息,利用模式匹配抽取实体关系,实现了
对水利综合知识的建模与表达。Yan等 [6] 利用 Protégé工具存储模式层本体信息,采用自然语言处理
( NaturalLanguageProcessing)技术构建了水务知识图谱,实现了基于语义距离的水务概念知识推荐。
水利行业综合知识图谱可用数据范围较大,方便训练图谱知识抽取模型,但对水利子领域知识浅尝辄
止,难以满足实际应用对知识深度的要求。
针对水利行业综合知识图谱领域知识深度不足问题,先对各子领域分别构建知识图谱,再通过图
谱融合手段构建综合图谱是一种可行策略。周逸凡等 [15] 提出了多策略的知识抽取与融合方法,根据期
刊论文数据构建了水文模型知识图谱。在水利工程建设管理方面,杨阳蕊等 [4] 提出了基于大语言模型
( LargeLanguageModel,LLM)的实体关系提取与推理策略,利用群体智能策略提升关系推理的可靠
性,为构建知识图谱提供了新范式;沈扬等 [16] 针对复杂的混凝土坝施工管理数据构建了大坝管理知识
图谱,提升了施工管理效率;刘雪梅等 [17] 针对南水北调工程智能辅助决策能力不足问题,提出了基于
巡检文本的应急方案知识图谱构建方法,采用自底向上和自顶向下相融合的策略构建了图谱本体模
型,制作正则模板提取表格半结构化数据,通过构建 “关键词 + 短文本” 规则的方式提取非结构化数
据,抽取文本知识建立了知识图谱,可辅助应急方案的智能生成;Wang等 [18] 基于预训练语言模型与
多视图卷积神经网络提升了本体知识抽取精度,进一步增强了应急方案的可靠性。
水利领域知识图谱研究推动了水利知识的组织与整合,但针对防汛抢险子领域的研究较少。防汛
抢险事关人民生命财产安全与社会和谐稳定,利用图谱整合已有抢险经验,对提升险情响应速度与应
急处置能力具有重要意义。然而,构建防汛抢险知识图谱面临挑战,一方面是防汛抢险涉及的实体类
型较多,如水利设施、险情种类、险情表现、险情级别、抢险原则、抢险位置、工程措施等,各类实
体分布差异较大,知识抽取困难;另一方面,防汛抢险领域知识散乱分布在多种载体中,可用的数据
量少、数据质量偏低。
本文以水利标准规范、抢险技术手册、论文专著报告、公众号推文等多源文本为数据来源,基于
LLM构建防汛抢险领域本体。引入卷积模块改进深度学习模型,从语义关联层面提升小样本数据知识
抽取质量。结合公众号与百科数据扩充领域知识量,构建针对防汛抢险领域的知识图谱,为数字孪生
防汛抢险知识平台建设提供技术方法与应用参考。
2 防汛抢险知识图谱构建框架
防汛抢险知识隐含在多源异构的知识载体中,包括半结构化的百科信息框数据和非结构化的文本
数据。半结构化数据指没有严格的数据模型,但有一定组织结构的数据,例如表格文本等有统一规律
的文本。非结构化数据指没有组织结构的数据,例如书籍图像等数据。百科信息框包含显式对应的防
汛实体与实体关系,筛选后可直接用于图谱构建。非结构化数据中实体知识与实体关系隐含在文本描
述中,难以直接提取利用。例如 “圩堤迎水面受风浪冲刷,导致一定范围的混凝土护坡冲毁,属于较
大险情,通过在迎水面铺设彩条布并固定,消浪防冲,可控制险情” 中,隐含 <水利设施 “圩堤” -
存在- 险情 “风浪冲刷” >、<险情 “风浪冲刷” - 应对方法 - 措施 “在迎水面铺设彩条布并固定” >、
<险情表现 “混凝土护坡冲毁” - 属于- 级别 “较大险情” >多条防汛知识,实体知识多样,关系类型
复杂,知识抽取与显化应用难度较大。为解决以上难题,提出了包含数据收集与处理、模式层本体构
建、实例层知识抽取、图谱构建与应用的防汛抢险图谱构建框架,如图 1所示。
( 1)数据收集与处理。为克服防汛抢险领域数据匮乏问题,尽可能保证知识覆盖的全面性,利用
网络爬虫技术收集领域相关百科数据,收集行业标准、抢险技术手册、论文专著报告、权威单位公众
号推文等多源文本数据。经筛选清洗后,作为知识图谱构建的数据基础。
( 2)模式层本体构建。为加速本体构建进程,迁移 LLM 技术至防汛抢险领域,构建领域提示工程
2
— 3 4 —