Page 102 - 水利学报2025年第56卷第4期
P. 102
如图像和描述性文字。上述研究进行方案推荐时仅限于单模态数据,未充分利用分布于工程巡检中的
多模态数据,从而导致给出的推荐方案准确性较低。因此,充分利用多模态数据对于下游任务至关重
要,多模态学习是对多源异构数据的挖掘分析 [8] ,通过特征提取、模态对齐与模态融合,能够有效融
合不同数据模态中的互补信息,提高推荐任务的性能。从符号计算到深度学习,多模态学习的发展备
[9]
受关注。当下多模态学习的典型工作有维基图像百科( IMGpedia) 和多模态知识图谱(MMKG) [10] 。
它们都是通过补充视觉信息知识将传统单模态文本知识扩展成图文多模态知识。然而,经实验发现,
在问题超出知识图谱的知识范围后,仅依靠知识图谱作为推荐的后端数据库,仍不能达到较好的推荐
效果。鉴于多模态大模型( MultimodalLargeModel,MLLM)含有丰富的知识,考虑将两者融合,依此
[13]
来解决知识溢出问题。现有多模态模型像 LLaVA [11] 、MiniGPT - 4 [12] 、Flamingo 等可对多模态数据
进行分析理解,但上述模型是针对整张图像,在实现特定区域的理解方面存在显著差距,而且现有使
用文本坐标或空间编码的解决方法难以满足智能化的视觉提示。
为了解决传统水利工程风险应对决策推荐的局限,保证工程运营期间的稳定,本研究将多模态知
识图谱与多模态大模型相结合,提出多模态知识增强大模型的水利工程风险应对决策推荐方法,依此
来辅助工程运维部门人员及时解决工程风险。首先使用经过数据微调的 YOLOv8模型对原始图像进行
风险部位识别,随后鉴于 VIP - LLaVA [14] 模型允许将视觉提示标记在原始图像的任意位置处,将经过
YOLOv8模型智能化识别后的图像传送给 VIP - LLaVA模型。基于南水北调工程巡检文本并结合专家经
验定义领域多模态知识图谱概念模型 [15] ,并在此基础上采用基于 T5的水利工程抢险实体和关系联合
抽取方法,从非结构化的巡检文本中抽取出结构化三元组知识,以 Neo4j图数据库 [16] 为载体进行水利
知识存储,清晰直观呈现出巡检文本中风险知识。在工程风险应对决策推荐方法中,为使得到的推荐
方案更加贴合实际,本研究将多模态知识图谱作为增强知识,采用知识检索与多模态模型生成协同方
式 [17 - 18] 迭代地寻找应对风险的最佳决策方案。将多模态知识图谱和多模态大模型技术引入到工程巡检
风险应对智能化应用中,实现了巡检知识的深度关联和有效利用,对辅助工程运维部门人员,提高南
水北调工程运维效率、强化工程风险管理能力具有重要作用。
2 研究方法
为使南水北调工程巡检文本在水利工程风险应对决策推荐方法中发挥重要作用,本研究设置了针
对性的方法:首先,选用可着重关注局部特征的开源多模态预训练模型 VIP - LLaVA,让其对风险局部
区域有侧重的理解与分析;其次,基于南水北调工程巡检文本构建领域多模态巡检知识图谱,将其作
为模型推荐方案的增强知识 [19] ;最后,结 合多模 态大模 型 与水 利 领域 多 模 态知 识 图 谱上 的领域知
识 [20] ,采用检索与生成协同方式迭代式地寻找应对水利工程风险的强相关方案,从而辅助工程运维部
门人员进行风险修复。方法的总体架构如图 1所示。
2.1 VIP - LLaVA模型 南水北调工程风险巡检图像较为复杂,如果对图像的全局部分进行考察分
析,往往存在许多噪声,如果模型能关注图像中的局部风险部位,并针对性地分析风险特征,就能够
减少噪声干扰。因此,为使模型着重关注发生风险的位置,并做出有效的应对决策,本研究选取可着
重关注局部特征的开源多模态预训练模型 VIP - LLaVA模型,该模型以 LLaMA [21] 模型为基础,允许在
图像的风险位置上针对性标注,从而让模型关注标注提示的位置。例如,南阳管理处,由于持续的降雨,
导致闸室的电缆沟里有大量积水,应当采用什么策略解决这个问题。如果没有对积水的电缆沟部分进行
标注,模型的回复就是针对整张图像进行分析,可能达不到预期结果,但是,如果事先通过 YOLOv8模
型对图像上积水的电缆沟部分进行智能化标注,然后传送给 VIP - LLaVA模型,让模型充分分析电缆沟局
部积水的部位,着重分析其结构,就能达到符合意图的结果。VIP - LLaVA架构如图 2所示。
该架构图中,将输入视觉提示标记到原始图像后,得到图像 Xv,接着使用预训练的 CLIP [22] 视觉
编码器 ViT - L?14作为视觉特征提取器,提供到图像视觉特征;这些特征被串接并经由归一化层与多
层感知机形成视觉标记 Hv;而文本指令则经由向量嵌入层形成文本标记 Hq。在进行水利工程风险应
— 5 2 —
0