摘要
本发明公开了一种基于轨迹行为度量的强化学习导航方法及系统,其涉及机器人导航技术领域。本方法通过轨迹级行为度量,综合评估奖励差异、状态转移相似性及未来轨迹表示差异,增强机器人对长期行为模式的捕捉能力,避免短视决策;引入关键状态标识符和掩码表示机制,动态加权状态重要性,精准定位关键状态,减少无效探索步数;利用前向动力学模型,增强对状态转移动态的建模能力,防止表示崩溃,提升策略稳定性,降低失败率,避免过拟合,增强泛化能力;通过轨迹回报估计器结合实际与伪奖励,引导探索方向,加速策略收敛并减少工程成本;采用并行环境交互与批量数据采样,轻量化表示编码器,减少计算开销,提高资源利用率。
技术关键词
轨迹
导航方法
度量
强化学习算法
生成机器人
机器人导航技术
策略
动态
批量数据
导航模块
编码器
导航系统
标识符
参数
决策
机制
系统为您推荐了相关专利信息
时间序列预测方法
XGBoost模型
算法
风电场发电功率
参数
储能电机
生成压缩空气
压缩空气储能电站
电压调节方法
初始运行状态
推理方法
交叉注意力机制
图像
融合特征
预训练模型
最佳安装角度
太阳运行轨迹
光伏组件
发电量
关键点识别