Page 136 - 2025年第56卷第1期

P. 136

Ｉｎｔｅｌｌｉｇｅｎｃｅ，ＡＧＩ）的非凡能力。此外，以ＬａｎｇＣｈａｉｎ为代表的ＬＬＭ应用程序的开发框架，进一步推动了
［９］
ＬＬＭ的落地应用，如开源、可离线部署的ＬＬＭ检索增强生成知识库项目—ＬａｎｇＣｈａｉｎ－Ｃｈａｔｃｈａｔ。
在ＬＬＭ强大能力激励下，各领域学者开始着力于挖掘ＬＬＭ的应用潜力。在土木领域，覃思中等［１０］
讨论了ＬＬＭ在建筑工程中的前景，结合检索增强生成（ＲｅｔｒｉｅｖａｌＡｕｇｍｅｎｔｅｄＧｅｎｅｒａｔｉｏｎ，ＲＡＧ）技术进行
了知识问答的系列实验；Ｕｄｄｉｎ等［１１］以ＣｈａｔＧＰＴ为辅助工具，开展施工现场危险行为识别研究，展现
了ＣｈａｔＧＰＴ在施工应用中的潜力。在水利领域，杨阳蕊等［１２］基于Ｔ５模型，建立了水利工程抢险文本
的实体和关系联合抽取框架，并基于ＣｈａｔＧＰＴ接口设计了递推式防汛知识推理模块，结合提示工程
（ＰｒｏｍｐＥｎｇｉｎｅｅｒｉｎｇ）实现了防汛知识推理［１３－１４］。上述研究表明，ＬＬＭ在垂直领域处理复杂任务和产生
有价值的见解方面展示出了不俗的实用性和影响力。目前在土木水利领域，关于ＬＬＭ的使用仍处于探
索阶段，相关研究或直接调用通用ＬＬＭ接口，或采用通用ＬＬＭ和检索增强生成结合的模式。然而，
由于通用ＬＬＭ缺乏领域知识，导致接口调用无法充分发挥ＬＬＭ的性能，且易出现回答与用户输入或
现实相悖的幻觉（Ｈａｌｌｕｃｉｎａｔｉｏｎ）现象。领域微调技术能够实现领域知识注入，构建垂直领域的ＬＬＭ，
以提供更专业、准确的知识服务。
［１５］是针对ＬＬＭ在进行特定的任务或领域迁移时的一种参数高效微调
ＬｏＲＡ（Ｌｏｗ－ＲａｎｋＡｄａｐｔａｔｉｏｎ）
方法。通过ＬｏＲＡ微调，可在通用ＬＬＭ中注入灌浆工程知识，构建灌浆领域模型，进而提供灌浆工程

知识服务。然而，灌浆工程作为一项复杂的系统工程，采用ＬｏＲＡ构建灌浆领域模型存在两方面局限：
（１）目前在灌浆工程领域文本大多为非结构化文本，可利用文本数量少、质量低，无法直接用于构建
领域模型，而手动构建可用数据集的代价过高［１６］；（２）特定灌浆工程文本，如施工大纲、地质调查报
告、检查报告等，会随着工程进度不断更新与变化，具有时效性，无法及时用于更新模型知识。此
外，部分资料存在信息安全问题，也不宜直接注入模型。
为克服上述限制，提供灌浆领域微调所需要的高质量数据［１７］，本文将灌浆工程文本区分为通用指
导性文本与特定工程文本两类。其中，通用指导性文本是指具备经验性质的文本，如灌浆工程相关的
施工规范；特定工程文本是指不同工程的施工大纲、地质报告等。针对通用指导性文本，本文提出基
于混合策略的灌浆指令数据集构建方法，通过引入基于思维链的自我检查机制与评分策略，克服传统
数据生成的质量局限，提供ＬＬＭ微调所需的高质量数据［１８］。在此基础上，对主流的中文ＬＬＭ进行微
调，完成通用规范的灌浆知识注入。针对特定工程文本，运用ＬａｎｇＣｈａｉｎ技术构建了灌浆工程检索增
强生成框架，利用本地知识库与提示工程实现特定工程文本与模型的隔离，在保障信息安全的前提下

提升了灌浆领域模型的检索问答功能，并通过阶段更新以适应特定工程文本的时效性要求。

２研究框架

本文所提的基于大语言模型的灌浆工程知识服务系统框架主要包含三个部分，如图１所示。
（１）基于混合策略的灌浆指令数据集构建。首先，通过对灌浆工程中的通用指导性文本进行数据
预处理，形成初始文本；其次，基于通用ＬＬＭ，使用基于思维链的自我检查机制与评分策略结合的方
式进行多样化数据生成；最后，通过反馈策略修正的方式获得可微调数据。
（２）灌浆领域微调与工程文本检索增强生成。先利用混合策略生成的灌浆指令数据对通用模型基
座进行领域ＬｏＲＡ微调，使其具备灌浆领域知识；使用ＬａｎｇＣｈａｉｎ对特定工程文档进行向量化处理，
构建特定灌浆工程文本的本地知识库，基于提示工程实现特定灌浆工程文本的增强检索与问答。
（３）实验与分析。基于生成的数据集，采用ＬｏＲＡ微调进行大量超参数试验，选取最佳模型进行
灌浆专业知识测试与通用能力评估，以获得最佳的微调模型，并基于ＬａｎｇＣｈａｉｎ－Ｃｈａｔｃｈａｔ对最佳微调

模型进行部署，从而搭建出灌浆工程知识服务系统。

３基于混合策略的灌浆指令数据集构建

３．１总任务分解垂直领域ＬＬＭ一般通过在指令数据集上进行有监督微调获得。通过提供高质量的

— １３１ —

131 132 133 134 135 136 137 138 139 140 141