一种基于流匹配与动态奖励调度的模仿学习方法以及装置

AITNT
正文
推荐专利
一种基于流匹配与动态奖励调度的模仿学习方法以及装置
申请号:CN202511011656
申请日期:2025-07-22
公开号:CN120874953A
公开日期:2025-10-31
类型:发明专利
摘要
本发明涉及深度学习技术,揭露了一种基于流匹配与动态奖励调度的模仿学习方法,包括:获取专家演示轨迹,并利用流匹配模型提取专家演示轨迹中专家特征序列;获取智能体策略网络执行任务的策略状态序列并转换为策略特征;利用专家特征序列和策略特征构造奖励函数;计算奖励结果并优化智能体策略网络中值函数网络;根据优化后的值函数网络优化智能体策略网络后采样当前策略的动作序列;根据动作序列生成轨迹片段,并将轨迹片段作为训练样本迭代优化智能体策略网络,迭代优化完成后得到目标智能体策略网络。本发明还提出一种基于流匹配与动态奖励调度的模仿学习装置、设备及存储介质。本发明可以提高模仿学习中状态建模效率以及奖励结构的稳定性。
技术关键词
模仿学习方法 策略 序列 动态 阶段 生成轨迹 网络优化 学习装置 误差函数 前馈神经网络 深度学习技术 特征提取模块 电子设备 处理器通信 网络结构 可读存储介质 存储器
系统为您推荐了相关专利信息
1
一种基于双域自适应图神经网络的分布式光伏出力预测方法及系统
分布式光伏 注意力神经网络 地理位置信息 局部空间特征 门控循环单元
2
基于模糊层次综合法与半监督学习的地下空间适宜性评估方法
XGBoost模型 螳螂 数据打标签 模糊综合评价 模糊综合法
3
数字智慧博物馆智能展示方法及系统
智能展示方法 智慧博物馆 知识图谱模型 交互特征 语义
4
一种基于深度强化学习的无人机与RIS协作边缘计算方法
协作边缘计算方法 深度强化学习 深度确定性策略梯度 三维城市场景 数据收集服务
5
一种高能效动态图神经网络加速方法及硬件加速器
顶点 神经网络加速方法 硬件加速器 数据缓存策略 关系
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号