摘要
本发明涉及一种具身认知大模型驱动的自主机器人多任务操作规划方法及系统,其中方法包括:S1、基于实时获取的RGB图和深度图进行编码得到具身视觉表征;S2、获取自然语言指令并和具身视觉表征进行跨模态融合,得到融合特征,并基于融合特征多任务分解方案;S3、基于多任务分解方案利用扩散策略生成机器人末端执行器的连续动作轨迹;S4、获取机器人按照连续动作轨迹执行后的第二RGB图像和第二深度图将其作为闭环反馈信号,系统用于实现上述方法。与现有技术相比,本发明基于具身认知大模型将视觉与语言模态的深度融合,并结合扩散策略动作决策模块预测精确的动作轨迹,显著提高了机器人在动态复杂环境中的多任务自主规划与精确执行能力。
技术关键词
自主机器人
深度图
视觉
融合特征
连续动作空间
自然语言
文本
规划
注意力
生成机器人
轨迹
机器人末端执行器
跨模态
执行多任务
序列
生成提示信息
编码
系统为您推荐了相关专利信息
饱和度监测方法
监控设备
多路监控视频
计算机视觉分析技术
分布式数据库系统
多模态深度
定位方法
环境图像数据
深度神经网络
注意力机制
视觉引导装置
二次定位机构
工件
点焊系统
搬运机器人