摘要
本发明提供一种基于历史反思的可变环境视觉语言导航方法和系统,涉及计算机视觉、自然语言处理及机器人导航技术领域,该方法为利用大模型视觉编码器与查询变压器,对可变环境视觉观察数据进行处理,得到场景图编码嵌入、下一个动作中所使用的导航历史信息和对应编码嵌入指令;利用门控网络和反思网络,对场景图编码嵌入、下一个动作中所使用的导航历史信息和对应编码嵌入指令进行分析,得到修正指令;反思网络是用于生成修正指令的大语言模型;基于修正指令,利用图感知自注意力机制进行计算,对智能体进行路径导航,得到视觉语言导航结果,完成可变环境的视觉语言导航。本发明解决了视觉语言导航适应性差和容错能力低的问题。
技术关键词
导航方法
视觉
大语言模型
交叉注意力机制
编码
指令
跨模态
前馈神经网络
拓扑图
场景
节点
机器人导航技术
表达式
变压器
超参数
矩阵
标签
系统为您推荐了相关专利信息
导航定位方法
故障容错
监测故障
故障树模型
模式
状态空间预测
拉伸薄膜
序列
纵向拉伸
薄膜生产线