摘要
本发明提供一种基于多模态视觉大模型的腿足式机器人感知系统,包括:传感器单元,设置在腿足式机器人上,用于获取环境中的图像数据和多种感知数据;目标检测单元,连接至传感器单元,用于基于图像数据对环境中的目标物体进行识别,输出目标物体增强特征图;语义分割单元,连接至目标检测单元,用于对目标物体增强特征图进行轮廓分割,输出与图像数据尺寸相同的分割掩码;感知数据处理单元,连接至语义分割单元,用于接收和处理传感器单元获取的多种感知数据及分割掩码;智能控制单元,连接至感知数据处理单元,用于根据感知数据处理单元的处理结果,生成相应的控制指令。本发明可以有效提升腿足式机器人的环境感知、物体识别及交互能力。
技术关键词
机器人感知系统
图像编码器
数据处理单元
传感器单元
多模态
腿足式机器人
文本编码器
机械主体
智能控制单元
视觉
多尺度特征金字塔
图像嵌入
语义
卷积神经网络结构
物体
支撑机器人