摘要
本发明涉及机器人控制技术领域,具体为基于深度强化学习的机器人决策方法,包括以下步骤,获取变化率数据序列,计算帧差值,筛选大于阈值数据帧,提取均值向量,生成特征向量集,拼接剩余时间与距离比值,构建编码矩阵,调整权重参数,筛选任务组,映射排序,生成任务批次集,筛选适配任务,生成执行序列清单。本发明,通过对环境感知数据中多项变化率序列进行相邻帧差值筛选并提取突变段特征,策略评估过程中通过筛选特定内积结果动态调整策略优先级,提升了策略适应性,筛选冲突最小且优先级最高的任务组合,根据计算能力差值筛选匹配度更高的任务批次,增强了机器人系统在复杂任务场景中的自主响应能力和执行可靠性。
技术关键词
深度强化学习
决策方法
索引
序列
强化学习策略
环境光照强度
分支
编码
矩阵
末端执行器
标识
时间段
机器人控制技术
障碍物
环境感知数据
新能源汽车
生成特征向量