一种基于检索增强的离线强化学习策略推理方法及系统

AITNT
正文
推荐专利
一种基于检索增强的离线强化学习策略推理方法及系统
申请号:CN202510777932
申请日期:2025-06-11
公开号:CN120806120A
公开日期:2025-10-17
类型:发明专利
摘要
本申请提供了一种基于检索增强的离线强化学习策略推理方法及系统,涉及机器学习技术领域,包括:获取目标用户的当前轨迹,所述轨迹是由三元组(状态、动作、累计剩余回报)构成的序列;将当前轨迹编码成查询向量,根据查询向量,从历史向量数据库中检索第一动作;利用离线强化学习方法,为当前轨迹生成第二动作;通过第一动作和第二动作的动态融合,生成增强后的动作,作为最终的决策结果;其中,历史向量数据库是将历史轨迹数据集中每个动作对应的轨迹编码成轨迹向量,由动作及对应的轨迹向量组成历史向量数据库,通过查询向量与历史向量的比较,得到第一动作。本发明在策略推理阶段,引入历史经验来增强检索,以提升决策的准确性和鲁棒性。
技术关键词
强化学习策略 推理方法 强化学习方法 离线 历史轨迹数据 非暂态计算机可读存储介质 三元组 决策 编码 动作融合 机器学习技术 动态 电子设备 处理器 推理系统 存储器 计算机程序产品 序列
系统为您推荐了相关专利信息
1
一种基于改进YOLOv8n的油茶树树冠突出树枝目标检测算法
油茶树 多尺度特征融合 YOLO算法 图像 离线
2
模型推理方法、装置、计算机设备及存储介质
大语言模型 序列 推理方法 注意力 计算机设备
3
一种基于智能乐器AI控制系统
智能乐器 AI控制系统 主控芯片 指示灯控制电路 生成控制指令
4
一种基于神经网络的车辆地磁定位方法及系统
车辆地磁 定位方法 序列 空间特征提取 数据
5
自组织闭环反馈驱动迭代优化的电力异常处理方法及系统
广义极值分布 强化学习方法 闭环 多模态 组织
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号