摘要
本公开提供了一种图像文本描述的生成方法及装置。该方法包括:利用Transformer和多层感知机构建语义特征提取分支;利用相似度计算公式和注意力机制构建视觉分组网络,利用随机向量生成网络、Transformer、视觉分组网络、Transformer、平均池化层和多层感知机构建视觉分组分支;利用线性层、语义特征提取分支、视觉分组分支、多层感知机和GPT网络构建图像描述生成模型;利用训练图像对图像描述生成模型进行训练,利用训练后的图像描述生成模型生成目标图像的目标文本描述。采用上述技术手段,可以解决现有技术中特征细节信息描述不充分和携带语义信息不足的问题,进而提升生成的文本描述的质量。
技术关键词
语义特征提取
多层感知机
图像视觉特征
分支
文本
注意力机制
生成方法
特征融合网络
线性
可读存储介质
处理器
生成随机
生成装置
模块
存储器
系统为您推荐了相关专利信息
命名实体识别方法
命名实体识别系统
图像
文本
注意力机制
特征提取模型
前馈神经网络
特征值
声学特征
语音识别模型