基于注意力和状态空间模型的图像字幕方法

AITNT
正文
推荐专利
基于注意力和状态空间模型的图像字幕方法
申请号:CN202510433465
申请日期:2025-04-08
公开号:CN120340011A
公开日期:2025-07-18
类型:发明专利
摘要
本发明用于图像字幕生成技术领域,具体公开了基于注意力和状态空间模型的图像字幕方法,包括以下步骤:S1:构建基于注意力和状态空间的图像字幕动态混合网络模型。该基于注意力和状态空间模型的图像字幕方法,本发明中以编码器解码器为架构框架,构建混合编码器,将图像的多模态特征作为编码器输入,采用注意力机制捕捉模态特征内的关联性,结合状态空间模型提取序列化特征,并通过自适应门控机制进行融合,为解码器提供丰富的特征信息;解码器中词嵌入与多模态特征交互,获得词嵌入与多模态特征的依赖关系,设计动态融合模块实现多模态的动态融合,可充分利用图像的多模态异构特征提供更加丰富的特征信息,生成更符合人类认知的句子描述。
技术关键词
状态空间模型 网格特征 混合网络模型 注意力 字幕 图像 特征提取模块 预训练模型 文本 融合特征 混合编码器 动态 前馈神经网络 多模态特征 编码器解码器 特征信息融合
系统为您推荐了相关专利信息
1
一种基于深度学习与高光谱图像的肿瘤早期识别系统
二维卷积神经网络 肿瘤 一维卷积神经网络 特征选择方法 识别系统
2
一种基于多模态融合感知的水域检测方法
水域检测方法 时空注意力机制 运动特征 城市内涝监测 Softmax函数
3
基于语义解析的电网调度文本SQL生成方法
SQL生成方法 Attention机制 词典构建方法 语义 电网调度业务
4
一种基于DWPose算法的人体穴位精准识别方法
精准识别方法 穴位 人体 蒸馏 训练集
5
一种微生物图像增强处理方法
图像增强 注意力 局部空间特征 解码模块 网络模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号