摘要
本发明公开了一种图像描述生成系统、训练方法、生成方法及电子设备,属于图像描述技术领域;将图像的视觉特征映射到一个视觉与语言可比的空间中,得到语义信息序列后,通过Transformer解码器实现语义信息序列和视觉特征序列的跨模态语义计算,得到各个候选词汇的中间隐藏状态,进而构建对应的有向无环图,从有向无环图中选出最优路径后,由线性分类器直接映射为图像文本描述。本发明充分利用了图像的视觉信息及所包含的语义信息,通过引入有向无环图学习了单词间的顺序关系,提高了生成描述的流畅性,且具有非自回归解码属性,能够以较快的速度生成高质量的图像文本描述。
技术关键词
生成系统
语言编码器
融合图像特征
视觉特征
样本
线性分类器
文本
序列
转移概率矩阵
图像编码器
生成方法
嵌入特征
语义特征
标签
有向无环图
电子设备
可读存储介质
系统为您推荐了相关专利信息
电力设备检修
模型生成方法
电力设备故障
设备状态数据
历史设备
音乐生成方法
机器学习算法
电极
参数
长短期记忆网络
客户
图像特征提取算法
管理方法
面部
风控模型训练方法