基于多模态信息融合的水下图像字幕生成方法及系统

正文

推荐专利

申请号：CN202510405514

申请日期：2025-04-02

公开号：CN120281862B

公开日期：2025-09-23

类型：发明专利

摘要

本发明公开了基于多模态信息融合的水下图像字幕生成方法及系统，首先，通过Faster R‑CNN提取水下图像的多尺度图像特征，包括全图特征和区域特征，捕获水下图像的场景和显著目标信息。随后，利用CLIP模型生成与水下图像内容相关的文本词嵌入编码，并通过K均值进行多级聚类提取层级化的文本特征，进一步分析文本信息的层级结构。接着，采用基于多头注意力机制的融合方法，有效地将图像特征和文本特征进行融合，增强模型对水下图像的理解能力。最后，融合后的多模态特征输入到基于Transformer的图像字幕生成器中，生成与图像内容和上下文相关的水下图像字幕。该方法能够有效地提升水下图像字幕生成的准确性与鲁棒性，具有较强的实际应用价值。

技术关键词

多模态信息融合图像字幕生成方法聚类特征图像特征提取多头注意力机制融合特征信息融合方法层级文本特征向量 K均值算法多尺度强化学习技术区域建议网络数据分布线性变换矩阵

系统为您推荐了相关专利信息

一种基于人工智能和虚拟现实的智能康复训练方法及系统

数字孪生模型智能穿戴设备注意力机制算法多模态虚拟现实场景

基于预训练语言模型联邦分割学习的网络入侵检测方法

网络入侵检测方法云端服务器多头注意力机制预训练语言模型分类网络

材料的缺陷信息识别方法、模型训练方法及设备

场景特征神经网络单元学习器图像处理方式融合特征

一种多视图知识图谱驱动的产业链协同推荐方法

协同推荐方法知识图谱驱动实体企业动态

一种基于多模态模型的电视播出质量监测系统

监测系统音频模态特征视频帧反馈控制模块

基于多模态信息融合的水下图像字幕生成方法及系统

站点导航

APP 下载