一种基于检索增强的离线强化学习策略推理方法及系统

正文

推荐专利

申请号：CN202510777932

申请日期：2025-06-11

公开号：CN120806120A

公开日期：2025-10-17

类型：发明专利

摘要

本申请提供了一种基于检索增强的离线强化学习策略推理方法及系统，涉及机器学习技术领域，包括：获取目标用户的当前轨迹，所述轨迹是由三元组(状态、动作、累计剩余回报)构成的序列；将当前轨迹编码成查询向量，根据查询向量，从历史向量数据库中检索第一动作；利用离线强化学习方法，为当前轨迹生成第二动作；通过第一动作和第二动作的动态融合，生成增强后的动作，作为最终的决策结果；其中，历史向量数据库是将历史轨迹数据集中每个动作对应的轨迹编码成轨迹向量，由动作及对应的轨迹向量组成历史向量数据库，通过查询向量与历史向量的比较，得到第一动作。本发明在策略推理阶段，引入历史经验来增强检索，以提升决策的准确性和鲁棒性。

技术关键词

强化学习策略推理方法强化学习方法离线历史轨迹数据非暂态计算机可读存储介质三元组决策编码动作融合机器学习技术动态电子设备处理器推理系统存储器计算机程序产品序列

系统为您推荐了相关专利信息

一种基于改进YOLOv8n的油茶树树冠突出树枝目标检测算法

油茶树多尺度特征融合 YOLO算法图像离线

模型推理方法、装置、计算机设备及存储介质

大语言模型序列推理方法注意力计算机设备

一种基于智能乐器AI控制系统

智能乐器 AI控制系统主控芯片指示灯控制电路生成控制指令

一种基于神经网络的车辆地磁定位方法及系统

车辆地磁定位方法序列空间特征提取数据

自组织闭环反馈驱动迭代优化的电力异常处理方法及系统

广义极值分布强化学习方法闭环多模态组织

一种基于检索增强的离线强化学习策略推理方法及系统

站点导航

APP 下载