摘要
本发明涉及深度学习技术,揭露了一种基于流匹配与动态奖励调度的模仿学习方法,包括:获取专家演示轨迹,并利用流匹配模型提取专家演示轨迹中专家特征序列;获取智能体策略网络执行任务的策略状态序列并转换为策略特征;利用专家特征序列和策略特征构造奖励函数;计算奖励结果并优化智能体策略网络中值函数网络;根据优化后的值函数网络优化智能体策略网络后采样当前策略的动作序列;根据动作序列生成轨迹片段,并将轨迹片段作为训练样本迭代优化智能体策略网络,迭代优化完成后得到目标智能体策略网络。本发明还提出一种基于流匹配与动态奖励调度的模仿学习装置、设备及存储介质。本发明可以提高模仿学习中状态建模效率以及奖励结构的稳定性。
技术关键词
模仿学习方法
策略
序列
动态
阶段
生成轨迹
网络优化
学习装置
误差函数
前馈神经网络
深度学习技术
特征提取模块
电子设备
处理器通信
网络结构
可读存储介质
存储器
系统为您推荐了相关专利信息
分布式光伏
注意力神经网络
地理位置信息
局部空间特征
门控循环单元
XGBoost模型
螳螂
数据打标签
模糊综合评价
模糊综合法
智能展示方法
智慧博物馆
知识图谱模型
交互特征
语义
协作边缘计算方法
深度强化学习
深度确定性策略梯度
三维城市场景
数据收集服务
顶点
神经网络加速方法
硬件加速器
数据缓存策略
关系