Page 137 - 2025年第56卷第1期
P. 137

图 1  基于大语言模型的灌浆工程知识服务系统框架
              指令数据, 可以在小规模数据集上获得优质的领域 LLM, 从而大幅节省计算时间                                    [19]  。 为构建优质的
                                                                                           [20]  作为基础数据
              灌浆指令数据集, 本文使用《水工建筑物水泥灌浆施工技术规范》(DL∕T 5148—2021)
              源。 这本规范在《水工建筑物水泥灌浆施工技术规范》(DL∕T 5148—2012)                          [21]  的基础上, 总结了近十年
              来水电、 水利、 水泥灌浆工程的实践经验, 以及开发应用的新工艺、 新技术、 新材料和新设备, 是典
              型的通用指导性文本语料。 基于混合策略的灌浆指令数据集构建流程分为语料数据预处理、 双策略数

              据生成和反馈策略修正三个阶段, 构建步骤如图 2 所示。

















                                            图 2  基于混合策略的灌浆指令数据集构建流程

              3.2  语料数据预处理  目前, 可获取的规范文件主要为纸质文件与图像化的 PDF 文档, 没有直接可
                                                                   [22]  ( Optical Character Recognition) 对图像化
              用的规范文本。 因此, 在语料数据处理阶段, 使用 OCR
              PDF 文档进行文字识别, 获取所需的文本语料。 语料数据预处理包含三个步骤: PDF 文件离散化、
              OCR 文字识别和数据整理与清洗。 前两步通过调用现有接口自动化获取所需的基础文本, 但生成结果
              中包含大量换行符号与部分识别错误, 会产生文本失真、 语义不连贯问题。 因此, 在自动化流程结束

              后, 仍需对文本进行数据整理与清洗。
              3.3  双策略数据生成  在通用领域, 采用 Self-Instruct 方法可以实现高效的数据自动生成, 以提供微
              调所需的指令数据         [23] 。 然而, 由于掣肘于大模型基本能力与幻觉现象, 自动化生成的指令数据存在低
              质量现象    [24] , 通过引入筛选机制可以一定程度缓解这一现象                    [25]  。 此外, 为避免直接使用 LLM 生成灌

                —  1 3 2  —
   132   133   134   135   136   137   138   139   140   141   142