Page 142 - 2025年第56卷第1期
P. 142

图 8  各模型训练过程损失函数曲线

                                                 表 3  基础灌浆专业问题示例
                问题类型            提示工程                                问题示例                        问题数量(条)
                                                 (1)在灌浆工程中, 需要安设拾动变形监测装置, 并在灌浆过程中
                         你是一名经验丰富的灌浆工程
                                                 连续观测记录, 抬动变形值应在设计允许范围内, 以确保工程的
                判断题      师, 请判断下列表述是否正确,                                                            50
                                                 稳定性和安全性。
                         如果错误请给出解释。
                                                 (2)灌浆段灌浆前透水率小, 可不进行灌浆。
                                                 (1)固结灌浆工程中要检测        是为了进行质量检查, 通过波速检
                         你是一名经验丰富的灌浆工程
                填空题                              测结果反应基础的整体强度特征。                                    50
                         师, 完成下列填空题。
                                                 (2)帷幕灌浆施工的目的是        , 保证蓄水安全。

              此外, 模型回答填空题的正确率会明显低于判断题, 有时还会出现回答不全的现象, 表明中文模型基
              座在生成任务上模型能力仍具备提升空间。 总体而言, 微调后的模型均能较好产生优质答案, 而

              Qwen-7B-Grout 在专业性测试中性能最佳。
                  表 4 和表 5 分别显示了 3 个模型在一个具体问题上的回答结果。 从示例可以看出, 针对 “灌浆段
              灌浆前透水率小, 可不进行灌浆” 的问题, ChatGLM 3-6B-Grout 能给出 “这是错误” 的判断结论,
              但给不出具体理由。 而另外两个模型能够生成与标准答案基本相似的回答。 在 “压力水冲洗时的冲洗
              压力” 的阈值标准填空中, 3 个模型均能答出压水试验中正确的压力阈值, 1 MPa。 可见, 经过微调
              后的模型大多数可以使用专业的术语, 正确给出测试题目答案, 生成的答案符合行业的需求, 具备使
              用价值。


                                                                                               —   1 3 7  —
   137   138   139   140   141   142   143   144   145   146   147