摘要
本发明涉及人工智能技术领域,可应用于智能体自主决策、金融科技及医疗健康等业务场景中,公开了一种基于视觉注意力增强的任务处理方法、装置、设备及介质,包括:获取视觉、语言和动作数据预处理后生成多模态初始特征,提取视觉分层特征,双中央凹注意力模块处理高层视觉特征并融合,侧抑制网络得到增强视觉特征,跨模态融合模块以增强视觉特征为查询向量、语言分量和动作分量为键和值向量生成融合特征,融合特征输入决策网络生成目标类别与位置信息,基于与实际标签差异生成反馈信息,更新模块参数后完成目标任务。本发明通过结合仿生视觉机制和多模态注意力融合,提升视觉特征提取与背景抑制能力,可在复杂场景中提高目标捕捉效率与识别精度。
技术关键词
注意力
高层视觉特征
分支
跨模态
多模态
融合特征
模块
分层特征
数据
网络
局部结构特征
生成动作
层级
决策
文本
邻域特征
依赖特征
标签
系统为您推荐了相关专利信息
急性冠脉综合征
早期预警方法
多模态生理
生成特征向量
时序
孤独症谱系障碍
注意力
眼动特征
电信号
脑电特征提取