基于交互轨迹的策略优化方法、装置、设备及介质

正文

推荐专利

申请号：CN202510722327

申请日期：2025-05-30

公开号：CN120654768A

公开日期：2025-09-16

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于机器人策略训练、金融科技及医疗健康等业务场景中，公开了一种基于交互轨迹的策略优化方法、装置、设备及介质，包括：定义环境信息并初始化策略参数，强化学习智能体与环境交互生成动作与状态序列并记录交互轨迹，基于轨迹优化策略生成最优动作策略，进而生成原始经验数据集，通过监督学习优化预训练模型得到目标策略模型。本发明通过强化学习智能体与环境交互生成任务相关的高质量轨迹，并在此基础上提取原始经验数据，结合监督学习机制对预训练策略模型进行优化，有效提升样本利用效率，同时增强模型在多任务条件下的泛化能力与执行鲁棒性。

技术关键词

策略优化方法动作策略序列轨迹生成动作机器人执行模块数据策略优化装置参数指令网络结构预训练模型人工智能技术定义医疗健康策略更新处理器程序

基于交互轨迹的策略优化方法、装置、设备及介质

站点导航

APP 下载