Page 105 - 水利学报2025年第56卷第4期
P. 105

“存在风险”,即某个部位发现了风险,则将部位类型与风险类型之间的关系定义为 “存在风险”。
                  “采取”,即解决风险应当采取的措施,则将风险类型与措施类型之间的关系定义为 “采取”。
                  “关联(HI)”,即某个风险部位相关联的风险图示,则将部位类型与风险事件图类型之间的关系
              定义为 “关联( HI)”。
                  各关系类型实例见表 1。
                                                    表 1 各关系类型实例

                      语义关系                                           语句描述
                        管理                                       扬州分公司,洪泽站
                        包含                                      蔺家坝泵站,2#水轮机
                      组成部位                                         水轮机伸缩节
                      存在风险                                        伸缩节下部渗水
                        采取                                伸缩节下部渗水,应当及时更换密封条
                      关联( HI)                            水轮机伸缩节———伸缩节图像(ID或 URL)

              2.2.2 异构数据预处理 由人工记录的南水北调巡检数据中往往存在着影响文本分类的噪声信息,如
              无关词、重复性词等。因此,对巡检文本进行预处理是构建结构化多模态知识图谱的关键环节,数据
              预处理影响着多模态知识图谱的质量。表 2中提供了南水北调工程巡检数据的部分实例。对于文本类
              数据,通常需要进行文本清洗和去停用词操作,以便于减少文本中的噪声,增强语言模型的整体性
              能;图像类数据,执行随 机 旋 转、图 像 缩 放 等 数 据 增 强 和 归 一 化 处 理,对 于 获 取 图 像 的 特 征 至 关
              重要。

                                                     表 2 巡检数据实例
                  机构          站点                        风险描述                               风险图像


                                      大沙河闸,启闭机室闸室外墙多处粉刷层起皮、脱落,工程维
                扬州分公司        洪泽站
                                      护人员应当及时用防水涂料进行粉刷。




                                      2#水轮机伸缩节下部渗水,应当检查密封条是否受到氧化,是
                徐州分公司      蔺家坝泵站
                                      否老化或破损,如果出现上述问题,应当及时更换。




                                      渠道倒虹吸进口上游左岸渐变段渠段处,边坡喷护混凝土破损,
                保定管理处        易县站
                                      坡面土体外露,维护人员应当用混凝土填充渠道边坡破损部位。



              2.2.3 知识抽取 为进一步从多模态信息中抽取相应的知识以构建水利多模态知识图谱,基于前述本
              体定义,针对文本、图像模态信息分别设计知识抽取方法。
                  (1)文本模态知识抽取。在数据进行预处理之后,文本模态知识抽取之前,需要对数据进行标签
              标注,以确定各个巡检记录文本的具体实体类型。本研究将实体类、关系类与输入语句分别定义为
              [node]、[relation]、[text],以上三类组成部分分别根据定义的实体与关系类型进行标注。其中由
              [node]标注的 “风险机构、风险站点、风险设施、风险部位、风险事件、风险事件图和风险应对措
              施” 指实体类型,[relation]标注的 “管理、包含、组成部位、存在风险、采取和关联(HI)” 指关系
              类型,[text]则表示风险相关文本,基于巡检文本进行实体与关系标注                               [25] ,用于模型的训练。标注示

                                                                                                —  5 2 3 —
   100   101   102   103   104   105   106   107   108   109   110