摘要
本发明公开了一种面向视觉场景图生成的多分支混合注意力模型,首先对输入图像通过基础特征提取网络提取出特征图以及检测出图中所包含的目标;将提取出的特征划分为视觉、语义、和位置特征;上述特征输入到目标上下文传递模块进行上下文信息传递以及边上下文信息传递,得到每个目标对应的综合特征向量;得到综合向量后将所有综合向量按照目标对进行组合,同时将原始的各模态向量也按照目标对关系组合;将各目标对的特征输入至多分支混合注意力模块中提取关系对的综合特征并进行谓词分类,得到最终目标关系谓词预测结果。本发明设计了多分支混合注意模块与混合区域预处理结构,能够有效提升视觉场景图的生成准确度。
技术关键词
注意力模型
分支
关系
场景
视觉特征
消息传递机制
模块
语义特征
特征提取网络
模态特征
注意力机制
输出特征
图像
阶段
算法
基础
系统为您推荐了相关专利信息
场景语义分割
网络
人体关键点
注意力机制
高效多尺度
智能垃圾分类方法
特征提取器
融合特征
关系网络
智能垃圾分类装置
多模态大数据
商品管理方法
节点
管理策略
商品管理系统
气象观测站
融合时空特征
样本
邻域空间窗口
估计方法
呼吸道
辅助诊断方法
风险预测模型
协同进化策略
天冬氨酸转氨酶