Page 108 - 水利学报2025年第56卷第4期
P. 108

图 6 知识增强框架图

                在实验过程中,发现一次知识的检索对 MLLM生成合适方案的有效性较低,针对此缺陷又提出检
              索与生成迭代协同的方式去寻找最合适的方案                      [39 - 41] 。该方法融合大模型的强大自然语言生成能力与知
              识图谱的检索与推理能力。具体地,当工程运维部门人员将工程现场拍摄图像与文本指令一同输入模
              型后,首先抓取到文本中的关键工程部位,用 Cypher语句针对该部位从知识图谱中查询到相似部位,
              并将知识图谱中与部位风险相关联的应对措施返还给模型,让模型进行相应推荐方案生成;然后,针
              对返回的多个相似部位,再次用 Cypher语句查询知识图谱中与风险部位实体相关联的风险事件图实
              体,再由多模态大模型视觉处理器最终判断并选择描述当前部位的最佳相关知识。例如,要解决的问
              题是图像中的水轮机处发生了什么风险,应当采取什么措施解决。首先,针对这个问题,采用文本向
              量相似度距离方法在水利多模态知识图谱当中寻找与问题中水轮机最相关的 3个实体,然后将其列
              出,MLLM针对检索到的知识做第一轮回复;进而,多模态模型中视觉处理器 CLIP再根据上述回复,
              将刚刚列出的实体的相关风险部位图像与当前模型中上传的经 YOLOv8智能化识别风险位置的图像进
              行对比,做相应局部风险特征相似性判断,从而确认最相似于当前模型中上传图像局部部位特征的水
              轮机伸缩节这个实体;最后,MLLM充分分析上传图像的特定标记位置,并结合前面两轮迭代确定的
              增强知识     [42] ,做出风险应对决策。本研究迭代检索- 生成框架的实例如图 7所示。

              3 实验与结果


              3.1 文本预处理 本研究主要以南水北调工程巡检知识文本作为主要案例源。在获得相关文本后,对
              文本进行段落筛选,过滤掉与风险决策知识无关的描述,然后利用自然语言处理工具 PyLTP对筛选后
              的段落以句号为分隔符进行分句处理,最终获得 2864条文本图像对,将 2864条文本输入到实体与关
              系抽取器中,获得 5106个实体对,然后按照 8∶2的比例,利用 Neo4j将抽取三元组的 80%以及风险部
              位对应的图像存放在水利多模态知识图谱当中,另外的 20%做本研究方法的实验测试数据集,以此证
              明本研究方法的有效性。
              3.2 实验设置 本研究以南水北调工程运营风险应对决策生成任务为应用测试场景,验证提出方法的
              有效性。主要针对方法的两个模块的有效性以及第一轮检索中列出相关实体的个数设计了以下验证实
              验,从以下实验设置中得出模块设计的有效性以及多方面考究中需要列出相关实体的最合适数量。

                     6
                —  5 2  —
   103   104   105   106   107   108   109   110   111   112   113