基于语法结构嵌入学习的多样可控图像描述方法

正文

推荐专利

申请号：CN202410882080

申请日期：2024-07-03

公开号：CN118862959B

公开日期：2025-08-26

类型：发明专利

摘要

本发明提供了一种基于语法结构嵌入学习的多样可控图像描述方法，包括以下步骤：步骤S100，获取图像的视觉特征和文本的语义特征；步骤S200，对视觉特征和文本语义特征分别进行先验近似子网络和后验近似子网络的学习获得先验潜在变量和后验潜在变量，获取先验潜在变量和后验潜在变量之间的KL散度；步骤S300，利用视觉特征、先验潜在变量和后验潜在变量和一系列[MASK]作为输入，采用非自回归目标函数预测词性标注；步骤S400，利用视觉特征先验潜在变量和后验潜在变量和文本生成描述，获取图像描述生成优化目标；步骤S500，对非自回归目标、图像描述生成优化目标和KL散度所构成的损失函数进行优化，得到生成最优图像描述的神经网络。

技术关键词

视觉特征语义特征残差归一化变量语法结构注意力图像文本残差神经网络图片句法信息网格代表编码器参数融合特征数据序列模块

系统为您推荐了相关专利信息

一种基于机器视觉的光伏电池热斑早期预警方法

早期预警方法符号进化算法光伏电池板定义

基于胞葬作用相关基因的胰腺癌预后预测模型及构建方法和应用

基因比例风险模型预后预测模型 TCGA数据库特征数据库

一种数据处理方法、装置、存储介质及电子设备

消息压缩器变量数据处理方法扩展模块

一种面向不平衡数据的基于生物电阻抗的血糖回归建模方法

血糖预测模型生物电阻抗搜索算法优化建模方法样本

一种基于线性声学阵列的远近场壁板泄漏源全场定位方法

全场定位方法噪声子空间表达式近场条件壁板结构

基于语法结构嵌入学习的多样可控图像描述方法

站点导航

APP 下载