Page 141 - 2025年第56卷第1期

P. 141

Ａｌｐｈａ通常设置为１倍或２倍的ＬｏＲＡＲａｎｋ。因此，本研究在两种ＬｏＲＡＡｌｐｈａ配置下分别讨论６组不
同的ＬｏＲＡＲａｎｋ设置，每个模型分别进行了１２组微调实验。
表１ＬＬａＭａＦａｃｔｏｒｙ框架下的训练参数配置

配置ＣｈａｔＧＬＭ３－６Ｂ－ＢａｓｅＱｗｅｎ－７Ｂ－ＢａｓｅＢａｉｃｈｕａｎ２－７Ｂ－Ｂａｓｅ
训练批次大小１１１
梯度累计数１６１６１６
学习率５×１０－５１×１０－４２×１０－４

优化方案Ｚｅｒｏ－２Ｚｅｒｏ－２Ｚｅｒｏ－２

５．２ＬｏＲＡ微调过程分析根据前文提出的基于混合策略的灌浆指令数据集生成方法，针对《水工建
筑物水泥灌浆施工技术规范》进行数据生成。为获得足够的语料，每个问题会生成５～８种语义表述相
近的指令数据，最终共生成了７２００条可用于微调训练的指令数据，为防止模型发生灾难性遗忘，训

练时将混合部分其他领域的指令数据。ＣｈａｔＧＬＭ３－６Ｂ－Ｂａｓｅ、Ｑｗｅｎ－７Ｂ－Ｂａｓｅ和Ｂａｉｃｈｕａｎ２－７Ｂ－Ｂａｓｅ
９
９
模型的参数规模分别为６．２４×１０，７．７２×１０和７．５１×１０，在有监督微调阶段，模型的可训练参数随ｒ
９
的增加而增加，不同配置下各模型的可训练参数比率如表２所示。
表２不同配置下的模型可训练参数比率单位：％
模型类别ｒ＝８ｒ＝１６ｒ＝３２ｒ＝６４ｒ＝１２８ｒ＝２５６

ＣｈａｔＧＬＭ３－６Ｂ－Ｂａｓｅ０．０３１２０．０６２４０．１２４８０．２４９２０．４９７２０．９８９４
Ｑｗｅｎ－７Ｂ－Ｂａｓｅ０．０５４３０．１０８５０．２１６８０．４３２７０．８６１６１．７０８６
Ｂａｉｃｈｕａｎ２－７Ｂ－Ｂａｓｅ０．０５５８０．１１６００．２２３００．４４５００．８８６１１．７５６７

图８显示了３个模型在ｒ ∶ α 为１∶ １和１∶ ２情形下，训练过程的模型损失函数变化历程（微调后模
型后缀为Ｇｒｏｕｔ）。随着训练步数的增加，各模型的损失函数均呈下降趋势，直至最终收敛。微调过程

中并未出现过拟合现象。模型的收敛程度随ｒ值的增大而增加。从趋势变化幅度看，Ｑｗｅｎ－７Ｂ－Ｇｒｏｕｔ
和Ｂａｉｃｈｕａｎ２－７Ｂ－Ｇｒｏｕｔ的损失函数曲线下降趋势幅度相近，而ＣｈａｔＧＬＭ３－６Ｂ－Ｇｒｏｕｔ损失的下降速度
与收敛程度会明显弱于另外２个模型。这一现象源于ＣｈａｔＧＬＭ３－６Ｂ－Ｂａｓｅ参数规模明显低于另外两个

模型。
此外，各个模型在ｒ ∶ α ＝１∶ ２时的模型收敛趋势会明显强于ｒ ∶ α ＝１∶ １时，其收敛趋势亦与ｒ ∶ α ＝
１ ∶ １条件下两倍ｒ的模型相当。其原因在于ｒ ∶ α ＝１ ∶ ２情形下对更新权重的放大，使得模型以更积极
的态势发生参数调整，以适应微调数据。此外，各个模型损失函数的收敛趋势均随着ｒ增加而不断增

加。在较大的ｒ配置下，模型拥有更多的可训练参数以适应灌浆指令数据的分布。
５．３微调后模型性能测试由于领域数据与基座训练语料的差异，微调后的ＬＬＭ模型可能导致模型
原有能力大幅下降甚至发生灾难性遗忘。为了更为全面的评估微调后模型的能力，本文从专业能力和
通用能力对模型进行评估。在灌浆领域，通过构造判断题与填空题来测试微调后模型在语义理解和文
本生成上的能力，每种类型的题目均为５０道。测试时为两类任务分别构造了特殊的提示工程，提示
工程的相关设置与问题示例如表３所示。提示工程假定 “灌浆工程师” 的角色，并指明了判断∕填空

的基本任务，以此保证模型的基本跟随能力。
选取ｒ＝２５６， α ＝５１２配置下的ＣｈａｔＧＬＭ３－６Ｂ－Ｇｒｏｕｔ、Ｑｗｅｎ－７Ｂ－Ｇｒｏｕｔ和Ｂａｉｃｈｕａｎ２－７Ｂ－Ｇｒｏｕｔ，
分别进行专业性测试。判断题和填空题的判别标准分为正确、错误与部分正确三类，以人工判别的方
式裁定答案的合理性，两类问题的判别结果如图９、１０所示。在判断题和填空题作答方面，微调后的
Ｑｗｅｎ－７Ｂ－Ｇｒｏｕｔ和Ｂａｉｃｈｕａｎ２－７Ｂ－Ｇｒｏｕｔ正确率基本相近，ＣｈａｔＧＬＭ３－６Ｂ－Ｇｒｏｕｔ正确率较低。该现象
源于３个模型之间的参数量差异，进一步说明了模型参数量是决定模型回答能力的一项关键影响因素。

— １３６ —

136 137 138 139 140 141 142 143 144 145 146