摘要
本发明公开了一种实现多模态通用操作任务的机械臂控制方法、系统及设备,获取文本、语音和视觉的多模态数据;对多模态的输入数据进行模态对齐、编码为统一的输入表征向量并拼接成多模态指令段落;基于语音指令数据的声纹特征检索用户信息语音数据库获取任务关联语音数据;指令信息输入策略大模型获取动作规划;后处理任务动作规划输入控制器控制机械臂,实时更新多模态输入指令感知最新任务状态;基于初始目标指令信息和环境感知信息进行闭环控制,直到任务完成。本发明通过基于策略大模型的闭环控制和语音数据检索提高了机械臂的任务规划与错误矫正能力,提高了机械臂的动态适应能力、自主纠错能力和多模态交互能力。
技术关键词
机械臂控制方法
机械臂末端执行器
语音对话数据
单目相机
指令
多模态数据采集
环境感知信息
检索用户信息
规划
服务端
客户端
音频传感器
文本
GPU处理器
PID控制器
系统为您推荐了相关专利信息
资源配置信息
生成用户
生成可执行
生成方法
计算机执行指令
水下航行器
运动预报方法
序列
注意力机制
斯皮尔曼相关系数
识别方法
校准
眼球运动轨迹
空间分布特征
融合特征
人工智能算法
策略
计算机程序产品
机器可读存储介质
管理方法