Page 88 - 2025年第56卷第5期
P. 88
水 利 学 报
2025 年 5 月 SHUILI XUEBAO 第 56 卷 第 5 期
文章编号:0559-9350(2025)05-0634-12 第二十七届中国科协年会学术论文
基于大语言模型的水利工程运行管理质量概念模型
及知识图谱自动化构建
杨阳蕊,董方宁,王鹏斐,菅朋朋,李海昆
(华北水利水电大学 信息工程学院,河南 郑州 450000)
摘要:现阶段水利工程运行管理质量相关数据大多存储在非结构化文本中,数字化程度较低,难以满足水利高质
量发展提出的更高要求。现行知识图谱及概念模型构建方式严重依赖人工,效率欠佳。为此,本文提出一种基于
大语言模型(LLMs)的“发掘-构建-过滤”(ECF)框架,以实现水利工程运行管理质量概念模型及知识图谱的自动
化构建。该框架利用 LLMs 首先发掘出知识图谱的实体和关系类型,设计并生成知识图谱概念模型。随后,在该
概念模型的指导下,从数据源中提取实例,构建知识图谱。最后,设计过滤机制,剔除概念模型及知识图谱中的
三元组噪声,保证准确性。通过设置种子文本集、全体文本集数据,对 ECF 框架各环节进行评估并与现有方法进
行对比。结果表明,ECF 框架在概念模型及知识图谱的自动化构建方面表现良好,三元组准确率较现有方法提升
23%,优化了知识图谱的构建效率,为水利工程的规范运行与稳步推进提供了技术和理论支持。
关键词:大语言模型;概念模型;知识图谱;智能生成;水利工程运行与质量管理
中图分类号:TP391.1 文献标识码:A doi:10.13243/j.cnki.slxb.20250027
1 研究背景
流域水利工程规模庞大、设施拓扑结构复杂,因此,对水利工程运行管理中的质量问题进行分析
至关重要。当前,海量水利工程运行管理质量问题数据大多以非结构化文档形式存储,知识梳理与清
洗能力不足、内容关联性较弱,难以对运行管理质量问题信息进行有机集成,无法动态协调水利工程
的运行、维护与修复工作。对质量问题数据进行结构化的表示和存储,将显著提升问题的分析与梳理
效率。在水利信息化、智慧化的背景下,知识图谱(Knowledge Graph,KG)凭借其强大的语义处理和
[1]
互联组织能力 ,成为解决水利工程运行管理质量问题数据整合的关键技术之一。
[2]
[3]
知识图谱以结构化的三元组形式描述概念、实体和关系 ,并最终以图的形式反馈给用户 ,高
效提升了对海量数据知识的分析与挖掘能力,是结构化数据组织的革新之一 [4] 。目前,知识图谱被广
泛应用于各种下游任务,如决策 [5-6] 、问答 [7] 和推荐 [8] 等方面。在水利工程领域,也有一系列针对知
识图谱展开的研究。张栋梁等 [9] 结合预训练模块和卷积模块,提出了非结构化数据与半结构化数据
联合构建防汛抢险知识图谱的方法;张军珲等 [10] 针对数字孪生工程,提出了水利工程知识图谱的构
建方法,为相关知识检索和预案的生成提供了理论支撑;Wang 等 [11] 借助预训练语言模型和多视图
卷积神经网络,对本体知识抽取的精度做了较大提升,进而增强应急方案的可靠性。然而,现行知
识图谱及概念模型(KG Schema,下文统称“概念模型”)的构建方式多为人工构建,需要水利领域
专家对大量数据进行分析和标注,明确实体和关系。这一过程耗时、费力且依赖专业知识,效率
收稿日期:2025-04-09;网络首发日期:2025-05-26
网络首发地址:https:/link.cnki.net/urlid/11.1882.tv.20250523.1647.002
/
基金项目:国家自然科学基金项目(72271091);河南省高等学校重点科研项目(25A520006);华北水利水电大学硕士研究生创新
能力提升工程项目(NCWUYC-202416098);河南省科技厅科技攻关项目(252102210030)
作者简介:杨阳蕊(1982-),博士,副教授,主要从事自然语言处理研究。E-mail:yangyangrui@ncwu.edu.cn
— 634 —