Page 107 - 水利学报2025年第56卷第4期
P. 107
图 5 局部风险图像提取框架图
监控损坏、墙皮损坏等)进行人工标记,用于 YOLOv8模型的微调,微调后的 YOLOv8模型可以将图像
当中含有的上述风险进行识别出来,提取到风险局部部位图;最终,风险图像数据都关联于对应的风
险实体,并以 URL或 ID的方式储存在多模态知识图谱中。紧接着在后续检索生成迭代方法中生成风
险应对决策的方案时,该局部图像作为检索的重要知识,可经由大模型视觉处理器 CLIP进行特征向
量提取,用于风险图像特征相似性对比。总之,风险局部部位图的提取在本研究生成最合适决策 [30] 方
案中尤为重要。
2.2.4 多模态知识融合 通过上述抽取方法从南水北调巡检文本中抽取到的知识可能存在大量同义、
重复表述的实体数据,所以需要对上述抽取到的知识进行融合与对齐 [31] ,融合目的就是将所有相近实
[32]
体有效融合统一,提高整个多模态知识图谱的质量。本研究知识融合采用 Bert 孪生网络框架,通过
余弦相似度公式计算相似度来进行实体对齐,公式如下所示。相似度结果大于某一阈值则认为两个表
达同属一个实体。
n
∑ uv
i i
u·v i =1
cos( θ ) = = (4)
u v n 2 n 2
∑
∑
槡 (u) 槡 (v)
i
i
i =1
i =1
式中:u和 v为两个待比较实体向量; · 为向量取模运算;n为向量的维度。
2.2.5 知识图谱三元组存储 本研究利用 Neo4j图数据库存储知识图谱三元组。文本类实体节点就采
用本身内容进行存储,对于图像类数据,采用唯一标识符(如 ID或 URL)作为实体节点进行存储。多
模态风险知识图谱采用三元组知识表示,即 “实体- 关系- 实体”。
多模态知识图谱作为外部知识检索增强的一种方式,其中所包含的文本及图像知识可对多模态大
模型的决策生成形成控制的作用,可以让其针对水利工程运行中某一具体风险做出正确的判断,从而
让推荐方案更贴合实际、更具解释性。接下来着重介绍如何结合多模态知识图谱与多模态大模型。
2.3 多模态知识图谱与大模型协同的风险决策推荐 MLLM能从大规模语料库当中学习通用知识,并
能在多种多模态处理任务中发挥良好的性能。然而,当 MLLM运用在特定领域生成任务中,生成的文
本常具有 “幻觉问题” [33 - 34] ,即为生成的方案看似合理但事实上是错误的内容;另外,尽管 MLLM学
习到了大量的知识,但学到的知识是基于统计的模式,并不能真正理解那些知识的真实含义,所以在
将 MLLM直接作为推荐器处理特定领域生成任务时,由于缺乏这方面知识的统计,导致缺乏深度理
解,生成的方案也通常不切实际,这表明领域知识对于推荐任务的重要性 [35 - 37] ;更重要的,MLLM生
成的方案通常可解释性较低,从而限制了其在关键任务中的可用性。针对上述问题,又鉴于 KG以明
确且结构化的方式存储大量特定领域方面的知识,可用于提升 MLLM用于生成任务的性能,所以,提
出用领域多模态知识图谱中的领域知识去增强 MLLM 在领域生成任务方面的性能表现 [38] 。知识增强
框架如图 6所示。
— 5 2 5 —