摘要
本发明提供了一种基于语法结构嵌入学习的多样可控图像描述方法,包括以下步骤:步骤S100,获取图像的视觉特征和文本的语义特征;步骤S200,对视觉特征和文本语义特征分别进行先验近似子网络和后验近似子网络的学习获得先验潜在变量和后验潜在变量,获取先验潜在变量和后验潜在变量之间的KL散度;步骤S300,利用视觉特征、先验潜在变量和后验潜在变量和一系列[MASK]作为输入,采用非自回归目标函数预测词性标注;步骤S400,利用视觉特征先验潜在变量和后验潜在变量和文本生成描述,获取图像描述生成优化目标;步骤S500,对非自回归目标、图像描述生成优化目标和KL散度所构成的损失函数进行优化,得到生成最优图像描述的神经网络。
技术关键词
视觉特征
语义特征
残差归一化
变量
语法结构
注意力
图像
文本
残差神经网络
图片
句法信息
网格
代表
编码器
参数
融合特征
数据
序列
模块
系统为您推荐了相关专利信息
基因
比例风险模型
预后预测模型
TCGA数据库
特征数据库
血糖预测模型
生物电阻抗
搜索算法优化
建模方法
样本
全场定位方法
噪声子空间
表达式
近场条件
壁板结构