Page 137 - 2025年第56卷第1期
P. 137
图 1 基于大语言模型的灌浆工程知识服务系统框架
指令数据, 可以在小规模数据集上获得优质的领域 LLM, 从而大幅节省计算时间 [19] 。 为构建优质的
[20] 作为基础数据
灌浆指令数据集, 本文使用《水工建筑物水泥灌浆施工技术规范》(DL∕T 5148—2021)
源。 这本规范在《水工建筑物水泥灌浆施工技术规范》(DL∕T 5148—2012) [21] 的基础上, 总结了近十年
来水电、 水利、 水泥灌浆工程的实践经验, 以及开发应用的新工艺、 新技术、 新材料和新设备, 是典
型的通用指导性文本语料。 基于混合策略的灌浆指令数据集构建流程分为语料数据预处理、 双策略数
据生成和反馈策略修正三个阶段, 构建步骤如图 2 所示。
图 2 基于混合策略的灌浆指令数据集构建流程
3.2 语料数据预处理 目前, 可获取的规范文件主要为纸质文件与图像化的 PDF 文档, 没有直接可
[22] ( Optical Character Recognition) 对图像化
用的规范文本。 因此, 在语料数据处理阶段, 使用 OCR
PDF 文档进行文字识别, 获取所需的文本语料。 语料数据预处理包含三个步骤: PDF 文件离散化、
OCR 文字识别和数据整理与清洗。 前两步通过调用现有接口自动化获取所需的基础文本, 但生成结果
中包含大量换行符号与部分识别错误, 会产生文本失真、 语义不连贯问题。 因此, 在自动化流程结束
后, 仍需对文本进行数据整理与清洗。
3.3 双策略数据生成 在通用领域, 采用 Self-Instruct 方法可以实现高效的数据自动生成, 以提供微
调所需的指令数据 [23] 。 然而, 由于掣肘于大模型基本能力与幻觉现象, 自动化生成的指令数据存在低
质量现象 [24] , 通过引入筛选机制可以一定程度缓解这一现象 [25] 。 此外, 为避免直接使用 LLM 生成灌
— 1 3 2 —