摘要
本发明提供一种基于多模态融合与视觉语言模型的机器人避障与导航方法,该方法包括通过多种传感器实时采集不同的模态数据,并进行时间同步处理和归一化处理;提取不同模态数据的特征并通过中间层进行融合;将融合后的多模态数据输入视觉语言模型,并利用模型的语义分割和目标检测结果,生成环境的语义地图,结合自然语言指令和视觉分析结果生成行动策略,将生成的行动策略转化为机器人可执行的控制信号,实现闭环控制。本发明将视觉语言模型与多模态传感器融合技术相结合,旨在提升移动机器人在复杂动态环境下的感知、决策与实时响应能力。
技术关键词
语义地图
点云特征
语言编码器
互补滤波器
视觉
模态特征
导航方法
卡尔曼滤波器
陀螺仪数据
图像采集设备
时间同步
自然语言
多层感知机
机器人
解码器
策略
中间层
节点特征
交叉注意力机制
系统为您推荐了相关专利信息
智能分拣机器人
分拣系统
行走模块
识别模块
存储模块
残差模型
非线性
多模态
计算机执行指令
注意力机制