Page 140 - 2025年第56卷第1期

P. 140

本地知识库利用Ｅｍｂｅｄｄｉｎｇ模型对文档进行向量化，构建向量知识库。在查询时，将问题进行向
量化并与向量知识库进行匹配，筛选出前Ｎ条与用户提问相近内容，实现问题的查询。本文选取Ｍ３Ｅ
［２８］［２９］作为本地知识库的向量化和相似度检索工具。其中，Ｍ３ＥＭｏｄｅｌ是Ｍｏｋａ开源，是
Ｍｏｄｅｌ和ＦＡＩＳＳ
经两千万中文语句训练的Ｅｍｂｅｄｄｉｎｇ模型，具备优秀的中文向量化能力；ＦＡＩＳＳ是Ｍｅｔａ开发的相似度
检索工具，可以实现１０亿毫秒级检索。灌浆工程本地知识库构建与知识检索流程如图６所示。

图５ＬｏＲＡ微调流程图６灌浆工程本地知识库构建与知识检索流程

在通用问题回答时，基于ＬａｎｇＣｈａｉｎ提供
的提示词模板可以直接形成提示工程，随后调
用灌浆ＬＬＭ模型，完成知识服务。针对特定
知识库时，首先使用ＬａｎｇＣｈａｉｎ将问题进行向
量化，并与本地向量库进行相似度匹配，筛选

出前Ｎ条与问题相近文本块（ＴｅｘｔＣｈｕｎｋｓ），
然后通过构造私有提示词模板，利用灌浆ＬＬＭ
的摘要抽取能力进行问题语言的进一步生成，
以保证模型针对特定工程或知识库问题回答的
能力。基于ＬａｎｇＣｈａｉｎ的灌浆工程知识服务流
图７基于ＬａｎｇＣｈａｉｎ的灌浆知识服务流程
程如图７所示。

５实验与分析

５．１实验内容与超参数设置在当下ＬＬＭ开源社区，由于训练语料、架构的差异，各种模型基座呈

现出不同优势。本研究以中文为应用背景，为筛选出合适的中文模型基座，选取ＣｈａｔＧＬＭ３－６Ｂ－
Ｂａｓｅ［３０］、Ｑｗｅｎ－７Ｂ－Ｂａｓｅ［２７］和Ｂａｉｃｈｕａｎ２－７Ｂ－Ｂａｓｅ［３１］模型作为通用的中文ＬＬＭ基座进行大量微调实
验，并采用专业性和通用性测试筛选最佳的灌浆领域模型。上述３个模型均为国内厂商发布的１００亿
参数内的开源模型基座，并在中文任务中取得了较好的效果，可在消费级ＧＰＵ上注入灌浆知识，并

兼顾计算消耗与模型性能。
本实验采用消费级服务器进行实验，其具体环境配置如下：系统，６４位Ｕｂｕｎｔｕ１６．０４ＬＴＳ；ＣＰＵ，
Ｉｎｔｅｌ（Ｒ）Ｘｅｏｎ（Ｒ）Ｇｏｌｄ６１３２ＣＰＵ＠２．６ＧＨｚ × ４５；内存，１２８ＧＢＲＡＭ；ＧＰＵ：ＮＶＩＤＩＡＱＵＡＤＲＯ
ＲＴＸ８０００４８ＧＢ；Ｐｙｔｈｏｎ版本，３．１０．１２；Ｃｕｄａ版本，１１．７；Ｐｙｔｏｒｃｈ版本，１．１３．１。
ＬｏＲＡ微调时，使用ＡｄａｍＷ优化器和ＷａｒｍｕｐＬＲ调度器，训练参数配置如表１所示。此外，为获
取合适的指令微调参数，本研究对不同ＬｏＲＡＲａｎｋ和ＬｏＲＡＡｌｐｈａ进行了丰富的实验。实践中，ＬｏＲＡ

— １３５ —

135 136 137 138 139 140 141 142 143 144 145