摘要
本发明公开了基于Transformer多粒度特征融合的图像描述方法,包括:处理图像数据,将数据划分为训练集、验证集和测试集;构建多尺度特征提取模块MVIT;构建多特征融合模块HF进行视觉特征向量的融合;构建文本解码器,将提取的视觉特征信息和文本信息通过因果注意力机制进行融合,生成最终的图像描述内容;通过构造多尺度特征提取模块和多层级融合模块,以及文本解码器,搭建一个完整的基于Transformer的多粒度特征融合图像描述生成模型,将待描述的图像输入该模型中即可生成图像描述。本发明通过多粒度特征融合技术,能够更全面地捕获图像中的局部细节、物体关系以及全局上下文信息,从而生成更准确、更详细的图像描述。
技术关键词
多尺度特征提取
前馈神经网络
注意力机制
图像
视觉特征信息
文本
解码器
多层次特征融合
训练集
矩阵
多粒度特征
编码器结构
模块
层级
数据
传播算法
网络结构
系统为您推荐了相关专利信息
多层次特征
残差网络
影像
深度卷积神经网络
校正
嵌入式设备
服务设备
智能分析设备
网络视频录像机
网络摄像机
图像特征识别方法
深度神经网络模型
智能锁
多分支
姿态估计