一种基于流匹配与动态奖励调度的模仿学习方法以及装置

正文

推荐专利

申请号：CN202511011656

申请日期：2025-07-22

公开号：CN120874953A

公开日期：2025-10-31

类型：发明专利

摘要

本发明涉及深度学习技术，揭露了一种基于流匹配与动态奖励调度的模仿学习方法，包括：获取专家演示轨迹，并利用流匹配模型提取专家演示轨迹中专家特征序列；获取智能体策略网络执行任务的策略状态序列并转换为策略特征；利用专家特征序列和策略特征构造奖励函数；计算奖励结果并优化智能体策略网络中值函数网络；根据优化后的值函数网络优化智能体策略网络后采样当前策略的动作序列；根据动作序列生成轨迹片段，并将轨迹片段作为训练样本迭代优化智能体策略网络，迭代优化完成后得到目标智能体策略网络。本发明还提出一种基于流匹配与动态奖励调度的模仿学习装置、设备及存储介质。本发明可以提高模仿学习中状态建模效率以及奖励结构的稳定性。

技术关键词

模仿学习方法策略序列动态阶段生成轨迹网络优化学习装置误差函数前馈神经网络深度学习技术特征提取模块电子设备处理器通信网络结构可读存储介质存储器

系统为您推荐了相关专利信息

一种基于双域自适应图神经网络的分布式光伏出力预测方法及系统

分布式光伏注意力神经网络地理位置信息局部空间特征门控循环单元

基于模糊层次综合法与半监督学习的地下空间适宜性评估方法

XGBoost模型螳螂数据打标签模糊综合评价模糊综合法

数字智慧博物馆智能展示方法及系统

智能展示方法智慧博物馆知识图谱模型交互特征语义

一种基于深度强化学习的无人机与RIS协作边缘计算方法

协作边缘计算方法深度强化学习深度确定性策略梯度三维城市场景数据收集服务

一种高能效动态图神经网络加速方法及硬件加速器

顶点神经网络加速方法硬件加速器数据缓存策略关系

一种基于流匹配与动态奖励调度的模仿学习方法以及装置

站点导航

APP 下载