摘要
本发明公开一种基于视觉特征与文本特征多层次交互的图像描述生成方法及装置,该方法步骤包括:获取待描述图像,分别提取出图像的区域特征以及网格特征,输入至基于Transformer架构的特征增强编码器中进行特征提取,进行融合后得到最终的增强图像特征;将获取的待描述图像裁剪成不同大小的多个子图像,并对每个子图像进行检索得到不同大小的子图像的文本描述;将各子图像文本描述分别与所述增强图像特征映射至同一语义空间并进行多层次交互,以基于多层语义指导实现语义信息与视觉特征的校准得到校准后的全局特征;对校准后的全局特征进行解码,得到最终的图像描述结果。本发明能够准确理解图像上下文场景,生成准确、丰富的描述。
技术关键词
视觉特征
图像
网格特征
多层次
文本
语义
注意力
生成方法
校准
分支
编码器
前馈神经网络
线性
模块
Softmax函数
支路
场景特征
解码
生成装置
存储计算机程序
系统为您推荐了相关专利信息
自动化定量上料
立体视觉系统
二指平动抓手
坐标系
工业相机
传输线模型
欧姆接触电极结构
碳化硅结构
金属沉积
碳化钛
图像数据压缩技术
三维地质模型
地质统计学方法
克里金插值算法
三维地质建模