Page 62 - 水利学报2025年第56卷第3期
P. 62
第二步设置案例提示,人为设置少量典型案例激活 LLM 的学习理解能力,促使 LLM 将通用数据集学
到的术语抽取经验用于防汛抢险领域,充分发挥 LLM的领域术语抽取性能。第三步设置明确要求,通
过要求语句修正 LLM不恰当输出,限制 LLM的输出格式以满足下游流程需求,例如要求其每两个输
出结果间用换行符分隔。
其中设置案例提示是促使模型领域迁移的关键。设置的案例提示举例如下:[句子:“漫溢的抢护
原则是预防为主、水涨堤高。当洪水位有可能超过堤坝顶时,为了防止洪水漫溢,应迅速果断地在堤
坝顶部,充分利用人力、机械,因地制宜,就地取材,抢筑子堤,力争在洪水到来之前完成” 中的术
语有 “漫溢,预防为主,水涨堤高,洪水位,堤坝顶,洪水漫溢,堤坝顶部,抢筑子堤”]。抽取领域
术语后将术语文本量化表示为语义向量 [22] ,采用 K - means算法聚类术语主题。部分术语的聚类结果
如表 1所示,以主题为参照明晰概念覆盖范围,协助模式层本体构建。
表 1 术语聚类部分结果
主题 部分主题词 主题 部分主题词
裂缝险情 内部裂缝、滑动性裂缝、缝口、空隙 漏洞抢护 临水截堵、闸前围堵、软帘盖堵、胶泥封闭
施工要求 固基、牢固、削平、洪水到来以前完成 施工物资 柳(秸)料、植物根叶、捆扎编织、灌浆管
水流作用 土体被水流带走、流水通道、漫顶溢流、翻沙管涌 水利设施 土坝、坝岸、闸室、灌排涵闸
边坡险情 临水堤坡滑坡、堤坡土质较差、上部削坡、草皮护坡 渗水险情 散浸、渗漏进口处、透水压渗台法、截渗土戗
3.1.2 基于领域经验的本体归纳 采用 LLM提取术语主题可代替人工阅读文本,快速解析文本包含
的术语主题。但无监督术语聚类逻辑与本体构建逻辑并非完全一致,例如聚类将险情的位置、表现、
抢护方法等多种知识归为一类,而本体构建逻辑要求将上述知识按照知识关联分开存储。要精确全面
地概括领域知识,还需要依靠领域经验对主题进行筛选与重组。基于 LLM的术语提取结果,采用 6步
“循环法” 归纳防汛抢险领域本体 [15,23] 。
( 1)本体需求分析。本研究涉及防汛抢险领域的知识管理,旨在使散乱与非结构化的防汛知识系
统化,方便应急抢险时快速调用相关知识,故本体应尽可能包含险情信息与抢险措施。
( 2)考察本体复用。充分利用本体可复用的特点从通用领域迁移本体概念到细分领域,经过文献
调研 [17] 与开放图谱库 [24] 查找,迁移了 “险情” 和 “物资” 作为防汛领域本体概念。
( 3)领域概念建立。针对防汛抢险关注的问题,如水利设施可能遇到哪些险情、应采取哪些处置
措施、需要准备哪些抢险物资等,从 LLM抽取的专业术语中提炼出防汛抢险知识概念如表 2所示。
( 4)概念关系确定。通过分析概念含义梳理概念间关联关系、划分概念层次。确定了领域概念间
有 “存在、定义、处理原则、应对方法、需要、位置、属于、包含” 八类关系。
( 5)概念属性创建。本研究涉及的概念间不涉及数值类关系,也不包含概念属性。
( 6)本体模式构建。经过与领域专家、研究人员的交流与讨论,构建面向特定领域任务的知识图
谱模式层本体,在数据知识抽取过程中对定义的本体不断反馈、循环往复,得到防汛抢险领域本体模
型如图 2所示。
表 2 防汛抢险知识概念
概念 部分实例 概念 部分实例
水利设施 闸门、穿堤建筑物、土质堤坝、岸坡溢洪道、消力池 险情级别 一般险情、较大险情、严重险情、重大险情
险情 跌窝、横向裂缝、洪水漫溢、堤防溃决、风浪潮 工程措施 抢筑土袋子堤、反滤围井、进占堵口
在持续高水位的 情 况 下, 由 于 集 中 渗 漏, 在 土 堤 堤 顶、
定义 险情表现 背水坡局部散浸,渗出少量清水且出逸点不高
堤坡及坡脚处突然出现局部塌陷的现象(跌窝)
原则 人民生命财产安全放到首位、临水面截渗 机械 挖掘机、抛石船、自卸汽车、装载机、固定拉杆
物资 编织布、固定桩、秫秸、简易模袋、软帘滚筒、挡板 措施地点 堤临水侧、堤背水侧、冲刷坑内、出水口周围
— 3 4 —
4