一种基于二阶段语义矫正的图像字幕算法

AITNT
正文
推荐专利
一种基于二阶段语义矫正的图像字幕算法
申请号:CN202511090640
申请日期:2025-08-05
公开号:CN120913209A
公开日期:2025-11-07
类型:发明专利
摘要
本发明提供一种基于二阶段语义矫正的图像字幕算法,包括一阶段解码和二阶段解码;所述一阶段解码负责生成出稿字幕,依赖视觉编码器和初稿解码器,结合区域、网格和语义特征,生产对图像内容的初步描述;所述视觉编码器负责将输入图像转化为高维特征向量,采用基于概念语义提取和几何特征融合的方法,通过整合结构化语义信息与几何特征,增强图像的语义深度和表达能力;所述初稿解码器在所述视觉编码器提取的特征基础上,结合当前已生成的词序列,逐步生成字幕草稿;所述二阶段解码包括审议解码器,所述审议解码器是对初稿字幕进行修正和优化。
技术关键词
解码器 交互注意力 网格特征 视觉特征 图像 语义特征 跨模态 阶段 上下文特征 高维特征向量 矫正 生成字幕 特征变换方式 基线估计方法 特征提取模块 Softmax函数 算法
系统为您推荐了相关专利信息
1
一种变电站远程智能巡视方法及系统
巡视方法 像素点 变电站设备 智能巡视系统 幅值
2
一种针对高光谱视频的目标跟踪方法
跟踪方法 图像 模板 视频 特征提取网络
3
基于多波段红外成像的尿床检测方法、装置、终端及介质
多波段红外成像 像素 红外相机 尿床检测装置 图像处理模块
4
患者远程复健管理方法、装置、设备及介质
训练场景 手部特征 诊疗数据 活动特征 管理方法
5
电能表三维模型的构建方法、装置、设备、存储介质和程序产品
电能表 图像特征数据 三维模型 原始图像数据 卷积神经网络模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号