一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法

正文

推荐专利

申请号：CN202411864237

申请日期：2024-12-18

公开号：CN119810899B

公开日期：2025-10-24

类型：发明专利

摘要

本发明公开了一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法，属于计算机视觉、机器学习、多模态理解领域。本发明通过设计语言感知的动态可变形注意力机制，利用人眼注视谱作为监督信息，根据语言特征自适应地捕获相应的视觉区域，同时设计眼动谱驱动的Transformer解码器，通过逐步融合视觉特征表示，推理出语言指示的目标区域位置，从而显示地模拟人眼视觉注意力感知区域以及转移过程，有效提升复杂场景指示表达理解精度。

技术关键词

跨模态人眼注意力注视点坐标高斯模糊方法模拟人眼视觉融合视觉特征场景图像高维向量空间模态特征深度卷积神经网络多头注意力机制高斯滤波器查询特征

系统为您推荐了相关专利信息

一种基于障碍物角点的AGV路径规划方法

AGV路径规划路径规划方法节点栅格地图障碍物

基于双目结构光摄像头和大模型的手术机器人机械臂控制方法

骨科手术机器人双目结构光机械臂控制方法运动路径规划计算机程序指令

摄像装置和移动机器人

摄像装置安装座移动机器人机器人主体驱动件

一种基于余量数据分析的机器人位姿求解方法

机器人位姿数据结构光三维扫描仪坐标系点云

一种用于油箱泄漏区凸起结构的罩盒设计方法

三维模型重构模型油箱表面变形误差避让结构

一种基于跨模态眼动注意力感知的复杂场景指示表达理解方法

站点导航

APP 下载