摘要
本发明公开了一种应用于智能机器人的多模态交互方法及交互系统,方法包括:采集场景图像并处理为三维点云与二维纹理特征;Gemini Robotics‑ER模型提取特征,视觉‑语言‑动作模型解析语言指令为机器可识别序列;融合特征生成交互决策矩阵,规划轨迹并计算动力学参数,驱动机器人执行动作并实时反馈。系统含多光谱视觉信息采集与预处理、Gemini Robotics‑ER模型处理、自然语言指令解析、视觉‑语言‑动作协同处理、轨迹规划与动力学计算、运动控制与反馈单元,各单元协同工作。该方法及系统通过多模态融合与闭环控制,提升交互精准性与实时性,满足工业场景需求。
技术关键词
语义依存树
纹理特征
多模态注意力
关节
运动控制单元
工业机器人
自然语言
末端执行器
词语
智能机器人
三维点云数据
动态图像序列
视觉采集装置
行业术语
矩阵
指令
逆运动学