摘要
本申请提供了一种机械臂强化学习奖励确定方法及存储介质,其中,该方法包括:获取机械臂的当前任务数据;根据当前任务数据以及通用的视觉语言模型,确定当前任务数据对应的至少一个子目标序列以及子目标隐藏状态;根据前一时刻的各粒子的更新后子目标隐藏状态,确定非初始时刻的各粒子的子目标输入状态,并根据各粒子的子目标输入状态以及各粒子在非初始时刻的权重参数,确定非初始时刻的子目标完成状态;在当前决策时刻,根据当前决策时刻的子目标完成状态以及前一决策时刻的子目标完成状态,确定当前决策时刻的奖励结果。本申请能够隔离视觉语言模型感知误差与策略优化过程,降低对视觉语言模型在复杂场景理解层面的要求。
技术关键词
粒子
机械臂
序列
视觉
方程
决策
参数
数据
感知误差
可读存储介质
图像
计算机
语句
策略
处理器
场景
系统为您推荐了相关专利信息
无人机回收装置
缓冲控制方法
法兰连接件
泄压阀门
回收控制技术
鲜食葡萄
末端执行器
履带式行走装置
橡胶履带
深度相机