基于视觉注意力增强的任务处理方法、装置、设备及介质

正文

推荐专利

申请号：CN202511060283

申请日期：2025-07-30

公开号：CN120953760A

公开日期：2025-11-14

类型：发明专利

摘要

本发明涉及人工智能技术领域，可应用于智能体自主决策、金融科技及医疗健康等业务场景中，公开了一种基于视觉注意力增强的任务处理方法、装置、设备及介质，包括：获取视觉、语言和动作数据预处理后生成多模态初始特征，提取视觉分层特征，双中央凹注意力模块处理高层视觉特征并融合，侧抑制网络得到增强视觉特征，跨模态融合模块以增强视觉特征为查询向量、语言分量和动作分量为键和值向量生成融合特征，融合特征输入决策网络生成目标类别与位置信息，基于与实际标签差异生成反馈信息，更新模块参数后完成目标任务。本发明通过结合仿生视觉机制和多模态注意力融合，提升视觉特征提取与背景抑制能力，可在复杂场景中提高目标捕捉效率与识别精度。

技术关键词

注意力高层视觉特征分支跨模态多模态融合特征模块分层特征数据网络局部结构特征生成动作层级决策文本邻域特征依赖特征标签

系统为您推荐了相关专利信息

急性冠脉综合征早期预警方法及计算机可读存储介质

急性冠脉综合征早期预警方法多模态生理生成特征向量时序

一种孤独症谱系障碍的诊断处理方法及系统

孤独症谱系障碍注意力眼动特征电信号脑电特征提取

融合增强实体与多级表示的文档级关系抽取

节点注意力异质关系抽取技术邻居

一种基于思维链的大小模型协同目标检测与识别方法

识别方法特征描述符多模态标签坐标

一种高膨润土含量泥浆的地聚物固化性能增强改性方法

膨润土含量改性助剂改性方法固化剂光度

基于视觉注意力增强的任务处理方法、装置、设备及介质

站点导航

APP 下载