Page 143 - 2025年第56卷第1期

P. 143

图９判断题测试结果图１０填空题测试结果

表４判断题回答示例

模型类别模型回答问题标准回答
灌浆段灌浆前透水率小，可不进行灌浆，是错误的（部
ＣｈａｔＧＬＭ３－６Ｂ－Ｇｒｏｕｔ
分正确）
错误，灌浆段不论灌浆前透
灌浆段灌浆前透
错误，灌浆段不论灌浆前透水率大小，这是为了保障水率大小，都应按技术要求
Ｑｗｅｎ－７Ｂ－Ｇｒｏｕｔ水率小，可不进
工程质量和灌浆的可靠性（正确）灌浆，这是为了保障工程质
行灌浆
量和灌浆的可靠性
错误，灌浆段不论灌浆前透水率大小，都应按技术要
Ｂａｉｃｈｕａｎ２－７Ｂ－Ｇｒｏｕｔ
求灌浆，以此保障工程质量和可靠性（正确）

表５填空题回答示例

模型类别模型回答问题标准回答
压力水冲洗时的冲洗压力可为灌浆压力的８０％且不大
ＣｈａｔＧＬＭ３－６Ｂ－Ｇｒｏｕｔ
于１ＭＰａ（正确）
压力水冲洗时的
压力水冲洗时的冲洗压力可
压力水冲洗时的冲洗压力可为灌浆压力的８０％且不大冲洗压力可为灌
Ｑｗｅｎ－７Ｂ－Ｇｒｏｕｔ为灌浆压力的８０％且不大于
于１ＭＰａ（正确）浆压力的８０％且
１ＭＰａ
不大于
压力水冲洗时的冲洗压力可为灌浆压力的８０％且不大
Ｂａｉｃｈｕａｎ２－７Ｂ－Ｇｒｏｕｔ
于１ＭＰａ（正确）

在通用性方面，本研究通过对比微调前后的模型在Ｃ－Ｅｖａｌ基准数据集上的评分变化以评估迁移
后模型在通用领域问答能力的变化程度，表６显示了原模型基准评分。模型在微调后，测试评分相较
于基准模型均出现下降，极少数任务评分小幅度提高。ＣｈａｔＧＬＭ３－６Ｂ－Ｇｒｏｕｔ、Ｑｗｅｎ－７Ｂ－Ｇｒｏｕｔ和Ｂａｉ⁃
ｃｈｕａｎ２－７Ｂ－Ｇｒｏｕｔ模型下降程度基本维持在８％以内，Ｑｗｅｎ－７Ｂ－Ｇｒｏｕｔ下降程度最小，如图１１所示。
微调后对模型的基本性能并未造成过大影响。因此，依据专业性测试和通用性评估的结果，选定微调
后的Ｑｗｅｎ－７Ｂ－Ｇｒｏｕｔ作为本研究后续部署和测试的模型。
表６原模型Ｃ－Ｅｖａｌ基准评分

平均值ＳＴＥＭ（科学、技术、工程和数学）社会科学人文科学其他

ＣｈａｔＧＬＭ３－６Ｂ－Ｂａｓｅ６５．４５５８．６０７６．７３７１．６０６０．９４
Ｑｗｅｎ－７Ｂ－Ｂａｓｅ６３．１５５９．９８７６．００６７．７０５７．８１
Ｂａｉｃｈｕａｎ２－７Ｂ－Ｂａｓｅ５６．４６５０．００６３．６４６３．４２５３．９１

— １３８ —

138 139 140 141 142 143 144 145 146 147 148