Page 137 - 2025年第56卷第1期

P. 137

图１基于大语言模型的灌浆工程知识服务系统框架
指令数据，可以在小规模数据集上获得优质的领域ＬＬＭ，从而大幅节省计算时间［１９］。为构建优质的
［２０］作为基础数据
灌浆指令数据集，本文使用《水工建筑物水泥灌浆施工技术规范》（ＤＬ∕Ｔ５１４８—２０２１）
源。这本规范在《水工建筑物水泥灌浆施工技术规范》（ＤＬ∕Ｔ５１４８—２０１２）［２１］的基础上，总结了近十年
来水电、水利、水泥灌浆工程的实践经验，以及开发应用的新工艺、新技术、新材料和新设备，是典
型的通用指导性文本语料。基于混合策略的灌浆指令数据集构建流程分为语料数据预处理、双策略数

据生成和反馈策略修正三个阶段，构建步骤如图２所示。

图２基于混合策略的灌浆指令数据集构建流程

３．２语料数据预处理目前，可获取的规范文件主要为纸质文件与图像化的ＰＤＦ文档，没有直接可
［２２］（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）对图像化
用的规范文本。因此，在语料数据处理阶段，使用ＯＣＲ
ＰＤＦ文档进行文字识别，获取所需的文本语料。语料数据预处理包含三个步骤：ＰＤＦ文件离散化、
ＯＣＲ文字识别和数据整理与清洗。前两步通过调用现有接口自动化获取所需的基础文本，但生成结果
中包含大量换行符号与部分识别错误，会产生文本失真、语义不连贯问题。因此，在自动化流程结束

后，仍需对文本进行数据整理与清洗。
３．３双策略数据生成在通用领域，采用Ｓｅｌｆ－Ｉｎｓｔｒｕｃｔ方法可以实现高效的数据自动生成，以提供微
调所需的指令数据［２３］。然而，由于掣肘于大模型基本能力与幻觉现象，自动化生成的指令数据存在低
质量现象［２４］，通过引入筛选机制可以一定程度缓解这一现象［２５］。此外，为避免直接使用ＬＬＭ生成灌

— １３２ —

132 133 134 135 136 137 138 139 140 141 142