基于注意力和状态空间模型的图像字幕方法

正文

推荐专利

基于注意力和状态空间模型的图像字幕方法

申请号：CN202510433465

申请日期：2025-04-08

公开号：CN120340011A

公开日期：2025-07-18

类型：发明专利

摘要

本发明用于图像字幕生成技术领域，具体公开了基于注意力和状态空间模型的图像字幕方法，包括以下步骤：S1：构建基于注意力和状态空间的图像字幕动态混合网络模型。该基于注意力和状态空间模型的图像字幕方法，本发明中以编码器解码器为架构框架，构建混合编码器，将图像的多模态特征作为编码器输入，采用注意力机制捕捉模态特征内的关联性，结合状态空间模型提取序列化特征，并通过自适应门控机制进行融合，为解码器提供丰富的特征信息；解码器中词嵌入与多模态特征交互，获得词嵌入与多模态特征的依赖关系，设计动态融合模块实现多模态的动态融合，可充分利用图像的多模态异构特征提供更加丰富的特征信息，生成更符合人类认知的句子描述。

技术关键词

状态空间模型网格特征混合网络模型注意力字幕图像特征提取模块预训练模型文本融合特征混合编码器动态前馈神经网络多模态特征编码器解码器特征信息融合

系统为您推荐了相关专利信息

一种基于深度学习与高光谱图像的肿瘤早期识别系统

二维卷积神经网络肿瘤一维卷积神经网络特征选择方法识别系统

一种基于多模态融合感知的水域检测方法

水域检测方法时空注意力机制运动特征城市内涝监测 Softmax函数

基于语义解析的电网调度文本SQL生成方法

SQL生成方法 Attention机制词典构建方法语义电网调度业务

一种基于DWPose算法的人体穴位精准识别方法

精准识别方法穴位人体蒸馏训练集

一种微生物图像增强处理方法

图像增强注意力局部空间特征解码模块网络模块

基于注意力和状态空间模型的图像字幕方法

站点导航

APP 下载