Page 61 - 水利学报2025年第56卷第3期
P. 61
提取复杂散乱多源文本数据的防汛领域术语,采用聚类算法抽取术语主题,结合领域经验重组术语主
题,锚定防汛抢险现实需求整合主题,根据主题归纳领域概念与概念关系,构建领域本体模型。
(3)实例层知识抽取。针对领域数据量偏少、数据质量偏低问题,提出实体数据增强方法扩充领
域数据量,引入卷积模块改进实体知识抽取模型,提升模型对知识语义关联的解译能力,从数据与模
型多角度入手增强模型对小样本数据的适应能力。利用增强后的数据集训练模型抽取非结构化文本知
识,结合外源百科数据补充模型抽取结果,进一步增强领域知识的完备性。
( 4)图谱构建与应用。采用知识融合方法对抽取结果进行知识加工,导入图数据库构建知识图谱,
通过知识图谱实现知识管理与知识复用,为知识检索、知识推荐、决策支持等任务提供支撑。
图 1 防汛抢险知识图谱构建框架
3 防汛抢险图谱构建关键方法
3.1 领域本体构建
3.1.1 基于大语言模型的术语主题提取 本体指描述特定领域概念与概念关系的形式化模型,是构建
知识图谱的前提 [19] 。本体建模要求尽可能全面覆盖目标领域,而防汛抢险领域知识隐含于多源文本
中,难以快速、便捷地归纳领域概念。为节省本体构建时间,先从多源文本中分离领域术语,通过术
语聚类了解术语概念覆盖范围。鉴于 LLM在文本信息提取中表现出的强大学习与理解能力,本研究将
LLM引入图谱本体建模任务 [20] 。构建针对防汛抢险术语抽取的提示工程(PromptEngineering),激活
LLM模型在通用领域学习的经验,引导模型理解任务内容,通过少量案例学习防汛知识抽取方法并完
成抽取任务 [21] 。
采用 “三步法” 构建 LLM提示工程 [13] 。第一步设置任务需求提示,通过自然语言描述设置 LLM
角色定位与任务需求,将任务限定在防汛抢险领域以去除 LLM中存储的大量通用领域冗余知识干扰。
— 3 4 3 —