摘要
本申请公开了一种检索增强生成方法、装置、设备、存储介质及程序产品,涉及人工智能技术领域,该方法包括:通过预设的强化学习模型对用户输入的查询信息进行决策,获得决策结果,强化学习模型基于策略梯度方法和PPO算法构建获得;然后将查询信息转化的向量化数据存储至预设的知识库中,知识库用于向量化数据的相关性检索;最后基于决策结果和知识库,通过大型语言模型确定查询信息对应的回答结果。由于本申请在用户输入查询信息时,会先通过强化学习模型进行决策,根据决策结果决定是否访问知识库,优化连续多轮对话中的对话历史控制,以减少对话传入大型语言模型的tokens,从而提升回答的准确性,避免幻觉问题。
技术关键词
强化学习模型
决策
生成方法
梯度方法
数据存储
计算机程序产品
策略
算法
多轮对话
人工智能技术
处理器
生成设备
参数
生成装置
自然语言
可读存储介质
存储器
模块
系统为您推荐了相关专利信息
车辆路径规划方法
交通
节点特征
车辆路径规划系统
注意力机制
数据格式转换装置
因子
数据存储器
数据输出模块
数据输入模块
施工设计方法
案例知识库
时序特征
顶管机
设备状态数据