Page 88 - 2025年第56卷第5期
P. 88

水      利       学      报

                2025 年 5 月                          SHUILI    XUEBAO                        第 56 卷  第 5 期

              文章编号:0559-9350(2025)05-0634-12                                    第二十七届中国科协年会学术论文

                         基于大语言模型的水利工程运行管理质量概念模型

                                             及知识图谱自动化构建


                                      杨阳蕊,董方宁,王鹏斐,菅朋朋,李海昆

                                        (华北水利水电大学  信息工程学院,河南  郑州  450000)

                摘要:现阶段水利工程运行管理质量相关数据大多存储在非结构化文本中,数字化程度较低,难以满足水利高质
                量发展提出的更高要求。现行知识图谱及概念模型构建方式严重依赖人工,效率欠佳。为此,本文提出一种基于
                大语言模型(LLMs)的“发掘-构建-过滤”(ECF)框架,以实现水利工程运行管理质量概念模型及知识图谱的自动
                化构建。该框架利用 LLMs 首先发掘出知识图谱的实体和关系类型,设计并生成知识图谱概念模型。随后,在该
                概念模型的指导下,从数据源中提取实例,构建知识图谱。最后,设计过滤机制,剔除概念模型及知识图谱中的
                三元组噪声,保证准确性。通过设置种子文本集、全体文本集数据,对 ECF 框架各环节进行评估并与现有方法进
                行对比。结果表明,ECF 框架在概念模型及知识图谱的自动化构建方面表现良好,三元组准确率较现有方法提升
                23%,优化了知识图谱的构建效率,为水利工程的规范运行与稳步推进提供了技术和理论支持。
                关键词:大语言模型;概念模型;知识图谱;智能生成;水利工程运行与质量管理
                中图分类号:TP391.1                文献标识码:A                doi:10.13243/j.cnki.slxb.20250027

              1 研究背景


                  流域水利工程规模庞大、设施拓扑结构复杂,因此,对水利工程运行管理中的质量问题进行分析
              至关重要。当前,海量水利工程运行管理质量问题数据大多以非结构化文档形式存储,知识梳理与清
              洗能力不足、内容关联性较弱,难以对运行管理质量问题信息进行有机集成,无法动态协调水利工程
              的运行、维护与修复工作。对质量问题数据进行结构化的表示和存储,将显著提升问题的分析与梳理
              效率。在水利信息化、智慧化的背景下,知识图谱(Knowledge Graph,KG)凭借其强大的语义处理和
                          [1]
              互联组织能力 ,成为解决水利工程运行管理质量问题数据整合的关键技术之一。
                                                                     [2]
                                                                                                     [3]
                  知识图谱以结构化的三元组形式描述概念、实体和关系 ,并最终以图的形式反馈给用户 ,高
              效提升了对海量数据知识的分析与挖掘能力,是结构化数据组织的革新之一                                    [4] 。目前,知识图谱被广
              泛应用于各种下游任务,如决策                [5-6] 、问答 [7] 和推荐 [8] 等方面。在水利工程领域,也有一系列针对知
              识图谱展开的研究。张栋梁等               [9] 结合预训练模块和卷积模块,提出了非结构化数据与半结构化数据
              联合构建防汛抢险知识图谱的方法;张军珲等                       [10] 针对数字孪生工程,提出了水利工程知识图谱的构
              建方法,为相关知识检索和预案的生成提供了理论支撑;Wang 等                               [11] 借助预训练语言模型和多视图
              卷积神经网络,对本体知识抽取的精度做了较大提升,进而增强应急方案的可靠性。然而,现行知
              识图谱及概念模型(KG Schema,下文统称“概念模型”)的构建方式多为人工构建,需要水利领域
              专家对大量数据进行分析和标注,明确实体和关系。这一过程耗时、费力且依赖专业知识,效率


                 收稿日期:2025-04-09;网络首发日期:2025-05-26
                 网络首发地址:https:/link.cnki.net/urlid/11.1882.tv.20250523.1647.002
                                /
                 基金项目:国家自然科学基金项目(72271091);河南省高等学校重点科研项目(25A520006);华北水利水电大学硕士研究生创新
                         能力提升工程项目(NCWUYC-202416098);河南省科技厅科技攻关项目(252102210030)
                 作者简介:杨阳蕊(1982-),博士,副教授,主要从事自然语言处理研究。E-mail:yangyangrui@ncwu.edu.cn
                — 634   —
   83   84   85   86   87   88   89   90   91   92   93