Page 64 - 水利学报2025年第56卷第3期
P. 64
表 3 实体数据增强样例
数据增强策略 原句 增强结果
同类实体互换 充填灌浆应沿堤轴线上游侧梅花型布置,采用水泥黏土、土工膜、化学材料等
同义替换 高喷灌浆应沿堤轴线上游侧花瓣状布置,采用水泥、纯黏土、化工材料等
充 填 灌 浆 应 沿 堤 轴
中英回译 线 上 游 侧 梅 花 型 布 灌浆应沿堤轴线上游沿梅花形布置,采用水泥、纯黏土、化工材料等
随机互换 置,采 用 水 泥、 纯 充填灌浆应梅花型沿堤轴线上游侧布置,采用化学材料、纯黏土、水泥等
黏土、化学材料等
添加同义词 充填灌浆应沿堤轴线上游侧梅花型高喷灌浆布置,黏土浆采用水泥、纯黏土、化学材料等
随机删除 充填灌浆应沿堤轴线侧梅花型布置,采用、纯黏土、化学材料
图 3 BERT_BiLSTM_CNN实体抽取模型
3.3 实体关系抽取 关系抽取旨在获得实体间的语义关系,为图谱的实体连接提供桥梁。半结构化数
据包含了实体关系,获取实体词与关系词后可按照 <头实体,关系,尾实体 >的格式生成三元组知识
链。对于非结构化数据,实体词显式存在于原文本,但关系词经常隐含在句义中,很少在原文中直接
表达。由于防汛抢险文本头实体总是出现在第一个实体位置,且句间的实体关系仅存在(险情表现- 属
于- 险情级别)一种。基于这一特点,通过实体共现分析定义关系匹配模式,基于模式匹配方法实现对
非结构化文本的关系抽取。具体实现方法为:首先判断句中是否同时存在 “险情表现” 与 “险情级
别” 实体,若存在则直接构建三元组;然后以一句文本中抽取的第一个实体作为头实体,其余实体作
为尾实体,头尾实体共同构建候选实体对,根据图 2的本体模型定义如表 4所示的实体关系模式表,
若候选实体对与表中标准共现实体对重合,则获取实体关系并与候选实体对构建三元组知识链。
3.4 外源知识补全 针对防汛抢险领域高质量、非结构化数据偏少问题,补充外源知识扩大防汛抢
险数据量,提升领域知识图谱覆盖面与应用价值。外源数据应选择与已有标注数据范围一致的水利
领域半结构化数据,应 具有与 防汛 抢险 主 题相 关、符 合 知 识 扩 充 需 求、数 据 量 较 大、结 构 性 好 等
特点。
— 3 4 —
6