摘要
本发明提供一种基于二阶段语义矫正的图像字幕算法,包括一阶段解码和二阶段解码;所述一阶段解码负责生成出稿字幕,依赖视觉编码器和初稿解码器,结合区域、网格和语义特征,生产对图像内容的初步描述;所述视觉编码器负责将输入图像转化为高维特征向量,采用基于概念语义提取和几何特征融合的方法,通过整合结构化语义信息与几何特征,增强图像的语义深度和表达能力;所述初稿解码器在所述视觉编码器提取的特征基础上,结合当前已生成的词序列,逐步生成字幕草稿;所述二阶段解码包括审议解码器,所述审议解码器是对初稿字幕进行修正和优化。
技术关键词
解码器
交互注意力
网格特征
视觉特征
图像
语义特征
跨模态
阶段
上下文特征
高维特征向量
矫正
生成字幕
特征变换方式
基线估计方法
特征提取模块
Softmax函数
算法
系统为您推荐了相关专利信息
多波段红外成像
像素
红外相机
尿床检测装置
图像处理模块
电能表
图像特征数据
三维模型
原始图像数据
卷积神经网络模型