摘要
本发明公开了一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法,属于计算机视觉、机器学习、多模态理解领域。本发明通过设计语言感知的动态可变形注意力机制,利用人眼注视谱作为监督信息,根据语言特征自适应地捕获相应的视觉区域,同时设计眼动谱驱动的Transformer解码器,通过逐步融合视觉特征表示,推理出语言指示的目标区域位置,从而显示地模拟人眼视觉注意力感知区域以及转移过程,有效提升复杂场景指示表达理解精度。
技术关键词
跨模态
人眼注意力
注视点
坐标
高斯模糊方法
模拟人眼视觉
融合视觉特征
场景
图像
高维向量空间
模态特征
深度卷积神经网络
多头注意力机制
高斯滤波器
查询特征
系统为您推荐了相关专利信息
AGV路径规划
路径规划方法
节点
栅格地图
障碍物
骨科手术机器人
双目结构光
机械臂控制方法
运动路径规划
计算机程序指令