摘要
本发明涉及智能决策技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了一种基于视觉想象的导航决策生成方法、装置、设备及介质,包括:获取导航场景的导航指令和初始环境数据,根据导航指令和初始环境数据确定导航想象模式;提取导航指令的语义信息,将语义信息转化为视觉想象图像,提取视觉想象图像的目标区域特征;获取实时环境数据,从实时环境数据中提取与目标区域特征相匹配的语义对齐区域,并生成语义对齐区域的空间注意力图;将空间注意力图转化为语义对齐区域的空间文本摘要,对空间文本摘要进行链式思维推理,得到结构化决策序列;根据结构化决策序列生成导航决策。本发明可以提升视觉语言导航中导航决策生成结果的准确性。
技术关键词
决策生成方法
注意力
摘要
场景
路径匹配
语义特征
数据
序列
图像
文本
指令
特征关联分析
智能决策技术
模式
区域特征提取
视觉特征
轨迹
系统为您推荐了相关专利信息
生成特征
图像生成方法
数据分布
管线结构
生成框架
时序遥感图像
地物分类方法
预训练模型
标签
空间注意力模型