Page 90 - 2025年第56卷第5期
P. 90
识图谱及概念模型构建中人工依赖度高、效率低下及类型处理单一的核心问题。
KGE 模块(图 1-Ⅰ)利用 LLMs 从文本中深度分析水利工程实体和关系以及类型,结合全连通图的
思想将它们进行任意组合,经过多个任务单元的处理最终自动化生成包含待定元三元组的概念模型,
增强了知识图谱的可靠性。KGC 模块(图 1-Ⅱ)基于自动生成的概念模型从数据源中抽取水利工程实体
和关系实例,构建初步的知识图谱,称“含噪知识图谱”。该知识图谱可能包含需要清理的待定实例
三元组。KGF 模块(图 1-Ⅲ)采用频率统计的方法过滤概念模型和知识图谱中的待定三元组,最终生成
优化后的概念模型和知识图谱,显著提升了准确性。该框架可自动化生成知识图谱概念模型,实现了
知识图谱的高效构建,满足水利工程运行管理质量问题知识图谱开发中对可靠性和准确性方面的高标
准要求。
2.1 知识图谱发掘模块 概念模型是水利工程相关质量问题知识图谱的基础和核心 [21-22] 。依据“基于
低维事实抽象出高维类型”的原则,KGE 模块旨在通过 LLMs 驱动的“抽取-标注-融合”三阶段自动
化流程,完成层次化、动态生成概念模型的核心目标,对知识图谱的构建提供完整的语义描述框架,
通过语义约束系统地解决语义歧义性的瓶颈问题。
LLMs 一 次 性 处 理 多 个 任 务 流 程 具 有 挑 战 性 。 因 此 , 根 据 单 一 责 任 原 则 [23] , 将 该 流 程 细 分 为
“实体抽取”“关系抽取”“实体类型标注”“关系类型标注”“实体类型融合”和“关系类型融合”
6 个子任务单元,以提升模块的可维护性和可扩展性。其中,“关系类型标注”为非 AI 单元,它通
过 遵 循 明 确 的 预 定 义 规 则 实 现 关 系 类 型 的 标 注, 其 余 五 个 单 元 均 为 AI 单 元 , 借 助 LLMs 实 现 特 定
功能。
为优化概念模型及知识图谱的质量,选取了具有类型差异的典型水利工程监管质量问题文本作为
KGE 模块的数据源。将这些具有代表性的文本称为种子文本集(SeedTexts),用于 KGE 模块设计并生成
概念模型。对于 SeedTexts 中的文本数据,将其切分为多个序列,设为 SeedTexts = {S ,S ,…,S},
1 2 k
其中,S 表示第 i 个种子文本序列。KGE 模块将种子文本序列作为输入,依次通过 6 个子任务单元的处
i
理,生成包含待定元三元组的概念模型。
2.1.1 抽取阶段 抽取阶段先后包括“实体抽取”“关系抽取”两个子任务单元,它的内核为基于
LLMs 的信息抽取器,用于读取种子文本序列并利用 LLMs 抽取各类水利工程相关实体和实体间关系。
实体抽取单元利用 LLMs 抽取出水利工程相关实体,并基于实体对 [24] 的思想,对其进行任意组合
形成水利工程实体对。如图 2(Ⅰ-1),种子文本序列“XX 河东分流井柴油发电机房防火门门框内未填
水泥浆砂”通过 LLMs 抽取出水利工程相关实体,经过任意组合后生成若干实体对,这些实体对的头
实体和尾实体的明确指向极大提升了水利工程实体间关系抽取的准确度。将上述实体对与种子文本序
列一同输送至关系抽取单元,利用 LLMs 对上下文的理解以及语义推理能力 [25-26] 抽取实体间的关系,
生成实体关系三元组。
2.1.2 标注阶段 标注阶段旨在对 LLMs 抽取的实体和关系进行类型识别,包括“实体类型标注”“关
系类型标注”两个子任务单元。为了实现基于底层实体抽象出上层概念的目标,标注阶段输出的是实
体或关系具体的类型标签,称为“基础实体(关系)类型”。如图 2(Ⅱ-1)实体类型标注单元,利用
LLMs 将水利工程相关实体及对应的实体类型进行识别。这些实体类型标注了水利工程实体的确切类
型,而非笼统概括。同时,为了使结构清晰,有利于 LLMs 更准确地提取和执行信息,实体类型标注
单元以[实体:实体类型]键值对格式作为本单元输出。
关系类型标注单元为非 AI 单元,由于三元组中的关系通常具有高度的简洁性和明确性,因此可以
直接被视为低维度的基础类型,即所讨论的关系类型正是三元组内的关系实例。如图 2(Ⅱ-2),三元
组<倒虹吸,配置,低压配电室>、<流动注射室,存在,维护记录表>等,该任务单元将关系实例“配
置”“存在”直接作为基础关系类型,无需利用 LLMs 进行处理。
2.1.3 融合阶段 融合阶段利用 LLMs 在基础实体(或关系)类型的基础上抽象出具有充分概括性的上
层高维类型,称“融合实体(关系)类型”,包括“实体类型融合”“关系类型融合”两个子任务单元。
— 636 —