摘要
本申请提供了一种基于检索增强的离线强化学习策略推理方法及系统,涉及机器学习技术领域,包括:获取目标用户的当前轨迹,所述轨迹是由三元组(状态、动作、累计剩余回报)构成的序列;将当前轨迹编码成查询向量,根据查询向量,从历史向量数据库中检索第一动作;利用离线强化学习方法,为当前轨迹生成第二动作;通过第一动作和第二动作的动态融合,生成增强后的动作,作为最终的决策结果;其中,历史向量数据库是将历史轨迹数据集中每个动作对应的轨迹编码成轨迹向量,由动作及对应的轨迹向量组成历史向量数据库,通过查询向量与历史向量的比较,得到第一动作。本发明在策略推理阶段,引入历史经验来增强检索,以提升决策的准确性和鲁棒性。
技术关键词
强化学习策略
推理方法
强化学习方法
离线
历史轨迹数据
非暂态计算机可读存储介质
三元组
决策
编码
动作融合
机器学习技术
动态
电子设备
处理器
推理系统
存储器
计算机程序产品
序列
系统为您推荐了相关专利信息
智能乐器
AI控制系统
主控芯片
指示灯控制电路
生成控制指令