Page 93 - 2025年第56卷第5期
P. 93

将水利工程运行管理质量问题文本(种子文本集数据除外)称为全体文本集(AllTexts)。将 AllTexts
              中的文本切分为多个序列,AllTexts= {A ,A ,…,A}。其中,A 表示第 i 个全体文本序列。KGC 模
                                                   1   2        n          i
              块依据包含待定元三元组的概念模型,利用 LLMs 从 AllTexts 中抽取水利工程实体和关系实例,最终生
              成水利工程运行管理质量问题知识图谱。
              2.2.1 基于概念模型的实体抽取 该单元根据概念模型从全体文本集 AllTexts 中利用 LLMs 抽取已给定
              类型的水利工程实体。它的输入为全体文本序列、实体类型及相应的类型定义。输出为水利工程实体实
              例及实体类型映射。如图 3,文本序列“XX 河倒虹吸启闭机室 4 块吊顶脱落” 经过此任务单元的处理生
              成 “倒虹吸:渠系建筑物”“启闭机室:设备室” 等水利工程实体实例及对应的实体类型。另外,为了
              统一输出结果,本文在基于 LLMs的提示中添加了“禁止其输出的水利工程实体包含参数信息”的规则。
              2.2.2 基于概念模型的关系抽取 为了提高关系抽取的准确性,该单元按概念模型指导,从数据源中
              抽取水利工程关系实例。将全体文本序列、水利工程实体对及定义的关系类型作为输入送至关系抽取
              单元利用 LLMs 进行处理,其输出为水利工程三元组实例及类型映射。如图 3 所示,文本序列“XX 河
              倒虹吸启闭机室 4 块吊顶脱落”经过本任务单元的处理,抽取的三元组及类型映射为“<设施及建筑
              物,设置,设施及建筑物>:<倒虹吸,配置,启闭机室>”等。
              2.2.3 关系收集 在所有三元组抽取完成后,关系收集单元将三元组进行收集组合,构建出水利工程
              运行管理质量问题知识图谱。由于该知识图谱是基于一个包含待定元三元组的概念模型构建的,因此
              它可能包含冗余的待定实例三元组,本文称“含噪知识图谱”。
              2.3 知识图谱过滤模块 KGF 模块旨在将概念模型和知识图谱中的待定三元组进行过滤,解决概念模
              型和知识图谱的三元组噪声问题。关联规则常被用来衡量不同项目之间的关联强度                                        [27-28] 。基于此,本
              文采用关联规则评估三元组中实体与关系之间的关联强度,提出一种基于频率(或称概率统计)的方法
              来衡量三元组的有效性。关联规则的构建形式多样,例如可以通过已知实体类型对推断关系类型(如

              规则 < ET 1 ,ET 2 >   → RT 1 ),亦或通过已知实体类型与关系类型推断另一实体类型(如规则<ET₁, RT₁>→
              ET₂)。鉴于本研究侧重于探索实体类型之间可能存在的关系类型,故选择“< ET 1 ,ET 2 >   → RT 1 ”这
              一形式进行分析。
                  该方法采用三项度量指标,以全面评估三元组的有效性。度量指标如下:
                  (1)支持度 (Support):用于衡量三元组的普遍性,即三元组<ET , RT , ET  >在知识图谱中所占
                                                                             1    1     2
              比例。其表达式如下
                                                                num ( < ET 1 ,RT 1 ,ET 2 > )
                                    Support( < ET 1 ,ET 2 > → RT 1 ) =                                 (1)
                                                                         all
              式中:num(<ET ,ET >→RT )为头实体 ET₁通过关系 RT₁关联到尾实体 ET₂的三元组组合数;all 为三元
                             1    2     1
              组总数。
                  (2)置信度(Confidence):用于衡量三元组的可靠性。即在实体类型 ET 和 ET 存在的条件下,关系
                                                                                  1    2
              类型 RT 出现的条件概率。表达式如下
                     1
                                                               Support( < ET 1 ,ET 2 >→ RT 1 )
                                 Confidence( < ET 1 ,ET 2 >→ RT 1 ) =                                  (2)
                                                                  Support( < ET 1 ,ET 2 > )
              式中 Support(<ET ,ET >)为满足头尾实体类型为 ET 和 ET 、关系类型为任意类型的所有三元组比例。
                             1    2                          1    2
                  (3)提升度(Lift):用于衡量 < ET 1 ,ET 2 > 与 RT 之间是否存在依赖关系。即 < ET 1 ,ET 2 >   → RT 1
                                                             1
              的置信度与关系类型 RT 在知识图谱中独立出现的概率之比。其表达式如下
                                    1
                                                           Confidence( < ET 1 ,ET 2 >→ RT 1 )
                                  Lift( < ET 1 ,ET 2 >→ RT 1 ) =                                       (3)
                                                                   Support( RT 1 )
              式中 Support(RT )为关系类型 RT 在所有三元组中的出现频率。
                            1               1
                  在这些度量指标中,为了发现频率较低但意义显著的三元组,或识别出新的关系类型,支持度和
              置信度可以相对较低。提升度方面,大于 1 的值通常表示三元组的三个元素之间存在正相关关系。基
              于此,本文将支持度、置信度和提升度的阈值分别设置为 0.005、0.02 和 1.0。当某一个三元组的三个

                                                                                                — 639  —
   88   89   90   91   92   93   94   95   96   97   98