一种基于轨迹行为度量的强化学习导航方法及系统

正文

推荐专利

申请号：CN202510454837

申请日期：2025-04-11

公开号：CN120373405A

公开日期：2025-07-25

类型：发明专利

摘要

本发明公开了一种基于轨迹行为度量的强化学习导航方法及系统，其涉及机器人导航技术领域。本方法通过轨迹级行为度量，综合评估奖励差异、状态转移相似性及未来轨迹表示差异，增强机器人对长期行为模式的捕捉能力，避免短视决策；引入关键状态标识符和掩码表示机制，动态加权状态重要性，精准定位关键状态，减少无效探索步数；利用前向动力学模型，增强对状态转移动态的建模能力，防止表示崩溃，提升策略稳定性，降低失败率，避免过拟合，增强泛化能力；通过轨迹回报估计器结合实际与伪奖励，引导探索方向，加速策略收敛并减少工程成本；采用并行环境交互与批量数据采样，轻量化表示编码器，减少计算开销，提高资源利用率。

技术关键词

轨迹导航方法度量强化学习算法生成机器人机器人导航技术策略动态批量数据导航模块编码器导航系统标识符参数决策机制

系统为您推荐了相关专利信息

激光焊机激光轨迹和带钢切口偏移量的检测装置及其方法

间隙传感器激光焊机焊缝轮廓图像焊接单元

一种基于SO-XGboost算法的风电功率时间序列预测方法

时间序列预测方法 XGBoost模型算法风电场发电功率参数

火电耦合压缩空气储能电站协同电压调节方法

储能电机生成压缩空气压缩空气储能电站电压调节方法初始运行状态

基于轨迹先验的低光道路感知与拓扑推理方法和系统

推理方法交叉注意力机制图像融合特征预训练模型

一种用于光跟踪的太阳光发电量分析方法及系统

最佳安装角度太阳运行轨迹光伏组件发电量关键点识别

一种基于轨迹行为度量的强化学习导航方法及系统

站点导航

APP 下载