一种基于二阶段语义矫正的图像字幕算法

正文

推荐专利

一种基于二阶段语义矫正的图像字幕算法

申请号：CN202511090640

申请日期：2025-08-05

公开号：CN120913209A

公开日期：2025-11-07

类型：发明专利

摘要

本发明提供一种基于二阶段语义矫正的图像字幕算法，包括一阶段解码和二阶段解码；所述一阶段解码负责生成出稿字幕，依赖视觉编码器和初稿解码器，结合区域、网格和语义特征，生产对图像内容的初步描述；所述视觉编码器负责将输入图像转化为高维特征向量，采用基于概念语义提取和几何特征融合的方法，通过整合结构化语义信息与几何特征，增强图像的语义深度和表达能力；所述初稿解码器在所述视觉编码器提取的特征基础上，结合当前已生成的词序列，逐步生成字幕草稿；所述二阶段解码包括审议解码器，所述审议解码器是对初稿字幕进行修正和优化。

技术关键词

解码器交互注意力网格特征视觉特征图像语义特征跨模态阶段上下文特征高维特征向量矫正生成字幕特征变换方式基线估计方法特征提取模块 Softmax函数算法

系统为您推荐了相关专利信息

一种变电站远程智能巡视方法及系统

巡视方法像素点变电站设备智能巡视系统幅值

一种针对高光谱视频的目标跟踪方法

跟踪方法图像模板视频特征提取网络

基于多波段红外成像的尿床检测方法、装置、终端及介质

多波段红外成像像素红外相机尿床检测装置图像处理模块

患者远程复健管理方法、装置、设备及介质

训练场景手部特征诊疗数据活动特征管理方法

电能表三维模型的构建方法、装置、设备、存储介质和程序产品

电能表图像特征数据三维模型原始图像数据卷积神经网络模型

一种基于二阶段语义矫正的图像字幕算法

站点导航

APP 下载