Page 93 - 2025年第56卷第5期
P. 93
将水利工程运行管理质量问题文本(种子文本集数据除外)称为全体文本集(AllTexts)。将 AllTexts
中的文本切分为多个序列,AllTexts= {A ,A ,…,A}。其中,A 表示第 i 个全体文本序列。KGC 模
1 2 n i
块依据包含待定元三元组的概念模型,利用 LLMs 从 AllTexts 中抽取水利工程实体和关系实例,最终生
成水利工程运行管理质量问题知识图谱。
2.2.1 基于概念模型的实体抽取 该单元根据概念模型从全体文本集 AllTexts 中利用 LLMs 抽取已给定
类型的水利工程实体。它的输入为全体文本序列、实体类型及相应的类型定义。输出为水利工程实体实
例及实体类型映射。如图 3,文本序列“XX 河倒虹吸启闭机室 4 块吊顶脱落” 经过此任务单元的处理生
成 “倒虹吸:渠系建筑物”“启闭机室:设备室” 等水利工程实体实例及对应的实体类型。另外,为了
统一输出结果,本文在基于 LLMs的提示中添加了“禁止其输出的水利工程实体包含参数信息”的规则。
2.2.2 基于概念模型的关系抽取 为了提高关系抽取的准确性,该单元按概念模型指导,从数据源中
抽取水利工程关系实例。将全体文本序列、水利工程实体对及定义的关系类型作为输入送至关系抽取
单元利用 LLMs 进行处理,其输出为水利工程三元组实例及类型映射。如图 3 所示,文本序列“XX 河
倒虹吸启闭机室 4 块吊顶脱落”经过本任务单元的处理,抽取的三元组及类型映射为“<设施及建筑
物,设置,设施及建筑物>:<倒虹吸,配置,启闭机室>”等。
2.2.3 关系收集 在所有三元组抽取完成后,关系收集单元将三元组进行收集组合,构建出水利工程
运行管理质量问题知识图谱。由于该知识图谱是基于一个包含待定元三元组的概念模型构建的,因此
它可能包含冗余的待定实例三元组,本文称“含噪知识图谱”。
2.3 知识图谱过滤模块 KGF 模块旨在将概念模型和知识图谱中的待定三元组进行过滤,解决概念模
型和知识图谱的三元组噪声问题。关联规则常被用来衡量不同项目之间的关联强度 [27-28] 。基于此,本
文采用关联规则评估三元组中实体与关系之间的关联强度,提出一种基于频率(或称概率统计)的方法
来衡量三元组的有效性。关联规则的构建形式多样,例如可以通过已知实体类型对推断关系类型(如
规则 < ET 1 ,ET 2 > → RT 1 ),亦或通过已知实体类型与关系类型推断另一实体类型(如规则<ET₁, RT₁>→
ET₂)。鉴于本研究侧重于探索实体类型之间可能存在的关系类型,故选择“< ET 1 ,ET 2 > → RT 1 ”这
一形式进行分析。
该方法采用三项度量指标,以全面评估三元组的有效性。度量指标如下:
(1)支持度 (Support):用于衡量三元组的普遍性,即三元组<ET , RT , ET >在知识图谱中所占
1 1 2
比例。其表达式如下
num ( < ET 1 ,RT 1 ,ET 2 > )
Support( < ET 1 ,ET 2 > → RT 1 ) = (1)
all
式中:num(<ET ,ET >→RT )为头实体 ET₁通过关系 RT₁关联到尾实体 ET₂的三元组组合数;all 为三元
1 2 1
组总数。
(2)置信度(Confidence):用于衡量三元组的可靠性。即在实体类型 ET 和 ET 存在的条件下,关系
1 2
类型 RT 出现的条件概率。表达式如下
1
Support( < ET 1 ,ET 2 >→ RT 1 )
Confidence( < ET 1 ,ET 2 >→ RT 1 ) = (2)
Support( < ET 1 ,ET 2 > )
式中 Support(<ET ,ET >)为满足头尾实体类型为 ET 和 ET 、关系类型为任意类型的所有三元组比例。
1 2 1 2
(3)提升度(Lift):用于衡量 < ET 1 ,ET 2 > 与 RT 之间是否存在依赖关系。即 < ET 1 ,ET 2 > → RT 1
1
的置信度与关系类型 RT 在知识图谱中独立出现的概率之比。其表达式如下
1
Confidence( < ET 1 ,ET 2 >→ RT 1 )
Lift( < ET 1 ,ET 2 >→ RT 1 ) = (3)
Support( RT 1 )
式中 Support(RT )为关系类型 RT 在所有三元组中的出现频率。
1 1
在这些度量指标中,为了发现频率较低但意义显著的三元组,或识别出新的关系类型,支持度和
置信度可以相对较低。提升度方面,大于 1 的值通常表示三元组的三个元素之间存在正相关关系。基
于此,本文将支持度、置信度和提升度的阈值分别设置为 0.005、0.02 和 1.0。当某一个三元组的三个
— 639 —