摘要
本发明提出的一种检索增强生成系统的构建方法、系统、装置及介质,所述方法包括:收集知识文档,通过对知识文档进行数据清洗;对知识文档进行文本分块优化处理;对知识文档进行预处理,使用预训练的嵌入模型执行词嵌入操作,并在词嵌入过程中引入自注意力机制;根据数据类型和查询需求建立多个不同层级的索引;获取用户的原始问题,使用大语言模型对原始问题进行重述处理,生成重新表述的问题;利用相似度度量的方法确定检索参数;将确定的检索参数输入检索模型,确定检索结果文档,并对检索结果文档进行上下文压缩处理;对检索结果文档进行重排处理。本发明通过优化检索增强生成系统构建的基本步骤,从而提高检索生成的效率及准确率。
技术关键词
生成系统
大语言模型
文本
注意力机制
实体消歧技术
索引
分块
层级
术语
可读存储介质
数据
参数
主题模型
模块
度量
构建系统
信息更新
程序
同义词