摘要
本发明用于图像字幕生成技术领域,具体公开了基于注意力和状态空间模型的图像字幕方法,包括以下步骤:S1:构建基于注意力和状态空间的图像字幕动态混合网络模型。该基于注意力和状态空间模型的图像字幕方法,本发明中以编码器解码器为架构框架,构建混合编码器,将图像的多模态特征作为编码器输入,采用注意力机制捕捉模态特征内的关联性,结合状态空间模型提取序列化特征,并通过自适应门控机制进行融合,为解码器提供丰富的特征信息;解码器中词嵌入与多模态特征交互,获得词嵌入与多模态特征的依赖关系,设计动态融合模块实现多模态的动态融合,可充分利用图像的多模态异构特征提供更加丰富的特征信息,生成更符合人类认知的句子描述。
技术关键词
状态空间模型
网格特征
混合网络模型
注意力
字幕
图像
特征提取模块
预训练模型
文本
融合特征
混合编码器
动态
前馈神经网络
多模态特征
编码器解码器
特征信息融合
系统为您推荐了相关专利信息
二维卷积神经网络
肿瘤
一维卷积神经网络
特征选择方法
识别系统
水域检测方法
时空注意力机制
运动特征
城市内涝监测
Softmax函数
SQL生成方法
Attention机制
词典构建方法
语义
电网调度业务
图像增强
注意力
局部空间特征
解码模块
网络模块