基于语法结构嵌入学习的多样可控图像描述方法

AITNT
正文
推荐专利
基于语法结构嵌入学习的多样可控图像描述方法
申请号:CN202410882080
申请日期:2024-07-03
公开号:CN118862959B
公开日期:2025-08-26
类型:发明专利
摘要
本发明提供了一种基于语法结构嵌入学习的多样可控图像描述方法,包括以下步骤:步骤S100,获取图像的视觉特征和文本的语义特征;步骤S200,对视觉特征和文本语义特征分别进行先验近似子网络和后验近似子网络的学习获得先验潜在变量和后验潜在变量,获取先验潜在变量和后验潜在变量之间的KL散度;步骤S300,利用视觉特征、先验潜在变量和后验潜在变量和一系列[MASK]作为输入,采用非自回归目标函数预测词性标注;步骤S400,利用视觉特征先验潜在变量和后验潜在变量和文本生成描述,获取图像描述生成优化目标;步骤S500,对非自回归目标、图像描述生成优化目标和KL散度所构成的损失函数进行优化,得到生成最优图像描述的神经网络。
技术关键词
视觉特征 语义特征 残差归一化 变量 语法结构 注意力 图像 文本 残差神经网络 图片 句法信息 网格 代表 编码器 参数 融合特征 数据 序列 模块
系统为您推荐了相关专利信息
1
一种基于机器视觉的光伏电池热斑早期预警方法
早期预警方法 符号 进化算法 光伏电池板 定义
2
基于胞葬作用相关基因的胰腺癌预后预测模型及构建方法和应用
基因 比例风险模型 预后预测模型 TCGA数据库 特征数据库
3
一种数据处理方法、装置、存储介质及电子设备
消息 压缩器 变量 数据处理方法 扩展模块
4
一种面向不平衡数据的基于生物电阻抗的血糖回归建模方法
血糖预测模型 生物电阻抗 搜索算法优化 建模方法 样本
5
一种基于线性声学阵列的远近场壁板泄漏源全场定位方法
全场定位方法 噪声子空间 表达式 近场条件 壁板结构
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号