摘要
本发明公开了基于多模态信息融合的水下图像字幕生成方法及系统,首先,通过Faster R‑CNN提取水下图像的多尺度图像特征,包括全图特征和区域特征,捕获水下图像的场景和显著目标信息。随后,利用CLIP模型生成与水下图像内容相关的文本词嵌入编码,并通过K均值进行多级聚类提取层级化的文本特征,进一步分析文本信息的层级结构。接着,采用基于多头注意力机制的融合方法,有效地将图像特征和文本特征进行融合,增强模型对水下图像的理解能力。最后,融合后的多模态特征输入到基于Transformer的图像字幕生成器中,生成与图像内容和上下文相关的水下图像字幕。该方法能够有效地提升水下图像字幕生成的准确性与鲁棒性,具有较强的实际应用价值。
技术关键词
多模态信息融合
图像字幕生成方法
聚类特征
图像特征提取
多头注意力机制
融合特征
信息融合方法
层级
文本特征向量
K均值算法
多尺度
强化学习技术
区域建议网络
数据分布
线性变换矩阵
系统为您推荐了相关专利信息
数字孪生模型
智能穿戴设备
注意力机制算法
多模态
虚拟现实场景
网络入侵检测方法
云端服务器
多头注意力机制
预训练语言模型
分类网络
场景特征
神经网络单元
学习器
图像处理方式
融合特征