摘要
本发明涉及一种基于多尺度原型网络的场景图生成方法。所述方法包括:通过双重交叉注意力网络聚合多模态交互信息,并基于多模态交互信息提取主体特征、客体特征;对主体特征、客体特征进行关系融合,通过MLP网络得到关系表示结果;通过Kmeans聚类算法,依据关系表示结果为每个关系类归纳出聚类中心原型,得到视觉原型;通过GloVe算法根据谓词标签到语义原型;通过不同的MLP网络分别对视觉原型、语义原型进行处理并聚合,得到多尺度谓词原型;根据多尺度谓词原型进行谓词类别预测,并基于谓词预测结果生成场景图。通过采用双重交叉注意力网络,可以实现跨通道、跨模态的信息交互融合;能准确捕获主体和客体之间的关联性,从而提高场景图生成效果。
技术关键词
原型
多尺度
多模态交互
生成方法
注意力
网络
关系
多层感知器
生成场景
视觉特征
算法
语义特征
捕获主体
标签
定义特征
聚类
跨模态
系统为您推荐了相关专利信息
联合损失函数
遥感影像数据
特征提取网络
检测损失
光流场
波动特征
编码向量
产品测试方法
路由器
激励响应分析
裂缝检测方法
裂缝检测系统
输出特征
像素
空间金字塔
古建筑修缮
图像增强
通道注意力机制
基底层
群搜索算法