摘要
本发明涉及人工智能技术领域,可应用于机器人策略训练、金融科技及医疗健康等业务场景中,公开了一种基于交互轨迹的策略优化方法、装置、设备及介质,包括:定义环境信息并初始化策略参数,强化学习智能体与环境交互生成动作与状态序列并记录交互轨迹,基于轨迹优化策略生成最优动作策略,进而生成原始经验数据集,通过监督学习优化预训练模型得到目标策略模型。本发明通过强化学习智能体与环境交互生成任务相关的高质量轨迹,并在此基础上提取原始经验数据,结合监督学习机制对预训练策略模型进行优化,有效提升样本利用效率,同时增强模型在多任务条件下的泛化能力与执行鲁棒性。
技术关键词
策略优化方法
动作策略
序列
轨迹
生成动作
机器人执行模块
数据
策略优化装置
参数
指令
网络结构
预训练模型
人工智能技术
定义
医疗健康
策略更新
处理器
程序