Page 60 - 2023年第54卷第7期
P. 60

水  利  学  报

                2023年 7月                            SHUILI  XUEBAO                          第 54卷 第 7期

              文章编号:0559 - 9350(2023)07 - 0818 - 11

                          水利工程文本中抢险实体和关系的智能分析与提取


                                                    1
                                                                           1
                                          1
                                  杨阳蕊 ,朱亚萍 ,刘雪梅                1,2 ,陈思思 ,李慧敏          3
                                        (1.华北水利水电大学 信息工程学院,河南 郑州 450000;
                                   2.黄河流域水资源高效利用省部共建协同创新中心,河南 郑州 450000;
                                          3.华北水利水电大学 水利学院,河南 郑州 450000)


                摘要:水利工程抢险措施是防汛应急预案的重要组成部分。本文旨在运用信息抽取技术从各种无结构文本源中抽
                取出水利工程抢险知识,并将其转化为 〈实体,关系,实体〉 三元组结构,为应急预案智能生成提供结构化知识
                支撑。本文将异构的水利工程抢险实体抽取和关系抽取视为从序列到序列的生成任务,并提出了基于大型预训练
                语言模型( T5)的水利工程抢险实体和关系联合抽取框架(WaterProjectRescueEntitiesandRelationshipsJointExtrac
                tion ,WRERJE)。WRERJE是同时进行实体抽取和关系抽取的多任务框架,该框架使用动态提示引导 T5进行实
                体和关系的联合抽取。研究特定于水利工程抢险领域的文本数据增强方法,在使用少量标注样本对 WRERJE进行
                初步微调的基础上,通过数据增强方法获得更多描述模糊但标注正确的数据进一步微调 WRERJE,提高了其对水
                利工程抢险实体和关系抽取的性能。通过实验对 WRERJE性能进行评估,结果表明在水利工程抢险实体和关系联
                合抽取任务上,WRERJE表现出了较高的抽取性能(实体和关系抽取 F1值分别达到 78.42%、78.22%),验证了动
                态提示和联合抽取方法的有效性。
                关键词:水利工程抢险;应急预案;信息抽取;动态提示;联合抽取;文本数据增强
                中图分类号:TP391.1                                            doi:10.13243?j.cnki.slxb.20220992
                                 文献标识码:A

              1 研究背景


                  水利工程抢险措施是防汛应急预案的重要组成部分                        [1] 。关于险情抢护的一系列知识散乱分布在各
              种无结构的水利工程文本中,这些知识包括险情部位、连带险情、抢护方法、所需材料等                                           [2] ,本文称
              这些为水利工程抢险实体。这些实体之间的关系也同时包含在文本描述中。例如: “横向裂缝处理采
              用横墙隔断法”,这个关系表达了出现 “横向裂缝” 要采取 “横墙隔断法” 进行处理。 “当无法在临
              河堵漏时采取背水坡导渗排水” 这个关系表达了 “临河堵漏” 和 “背水坡导渗排水” 的功能是相似
              的。这些实体和关系一旦被提取出来,就可以组织成三元组和知识图谱的结构化形式                                         [3] ,进而为应急
              预案智能生成、数字孪生            [4] 等任务提供结构化知识支撑。
                  有关研究已经开发了工程文档智能管理方法以实现工程文本维护                                [5 - 6] 。关于对文本内容智能提取
              的研究,例如将 Attention融入 CBOW 模型提取水利水电工程专业词                        [7] ,采用 BILSTM+ CRF识别水网
              实体  [3] ,将 Word2vec与 TFIDF相结合进行水利工程质量监督文本特征提取                        [8] ,这些研究主要集中在
              单一实体的提取,但只有实体无法表达出实体与实体之间的语义关系                                 [9] 。从非结构化文本中提取关系
              三元组的现有方法主要有两种,一是基于规则或模式匹配的方法                               [10 - 12] ,此方法需要人工观察所有语句
              的描述模式并制定适应所有语句的匹配规则,水利工程文本中语句表达的多样性,使得人工总结出适


                 收稿日期:2022 - 12 - 10;网络首发日期:2023 - 07 - 05
                 网络首发地址:https:??kns.cnki.net?kcms?detail?11.1882.TV.20230704.1019.001.html
                 基金项目:国家自然科学基金项目(72271091);河南省科学院科技开放合作项目(220901008)
                 作者简介:杨阳蕊( 1982 - ),博士,讲师,主要从事自然语言处理研究。E - mail:yangyangrui@ncwu.edu.cn

                —  8 1  —
                     8
   55   56   57   58   59   60   61   62   63   64   65