Page 106 - 水利学报2025年第56卷第4期
P. 106
例见表 3。
表 3 巡检文本标注示例
名称 标注样式
巡检文本 [ text]扬州分公司洪泽站,启闭机室外墙粉刷层脱落,应及时用防水涂料重新粉刷。
扬州分公司 [node]机构
洪泽站 [node]站点
启闭机室 [ node]设施或建筑物
外墙 [ node]部位
粉刷层脱落 [node]风险事件
及时用防水涂料重新粉刷 [ node]风险应对措施
标注数据的质量对巡检知识三元组的确立影响巨大,进而,三元组形成的质量又深层次地影响着
多模态知识图谱的构建质量,也会影响后续方法实现中知识的检索。受最近提示工程 [26 - 27] 工作的启
发,本研究采取基于 T5的实体关系联合抽取框架- WRERJE [28] ,使用上表标注的数据对该框架进行微
调,使框架向工程巡检文本风险实体与关系抽取方面逐渐靠拢,从而使该框架识别出巡检文本中存在
的实体和关系,并转化为三元组形式。联合抽取框架如图 4所示。WRERJE首先将输入语句 X处理为
固定提示序列 P,该过程表示为
[ p,p,…,p] = PG[x,x,…,x] (2)
1
x
n
2
1
2
式中:PG表示基于文本分类模型实现的提示生成器;X = [x,x,…,x]表示输入语句;[p,p,
1 2 x 1 2
…,p]表示所生成的提示序列 P;其次由 T5从该提示序列中同时提取出巡检实体和关系,并转为结
n
构化三元组知识(structuredtripletknowledge,S)序列,该生成过程可表示为
tk
[ y,y,…,y] = ERJE[p,p,…,p] (3)
1 2 y 1 2 n
式中:ERJE表示基于 T5的实体关系联合抽取器;[y,y,…,y]表示 S序列。
1 2 y tk
图 4 联合抽取框架
(2)局部风险图像提取。南水北调巡检文本数据中存在大量风险图像数据,能更直观、更形象地
可视化巡检文本所描述的有关风险;同时,图像特征对后续多模态知识图谱与多模态语言模型协同迭
代地寻找应对风险的强相关方案时具有重要的作用。作为多模态知识图谱的重要组成部分,对于图像
模态,本研究借助 CV处理技术以及人工的方式进行提取,其流程如图 5所示。
本研究使用经过特征突出数据微调的 YOLOv8 [29] 模型作为主干网络,作为南水北调巡检图像的局
部风险部位提取器。使用开源工具 LabelImg对巡检数据中风险图像数据(例如:渗水、开裂、塌陷、
— 5 2 —
4