基于多模态信息融合的水下图像字幕生成方法及系统

AITNT
正文
推荐专利
基于多模态信息融合的水下图像字幕生成方法及系统
申请号:CN202510405514
申请日期:2025-04-02
公开号:CN120281862B
公开日期:2025-09-23
类型:发明专利
摘要
本发明公开了基于多模态信息融合的水下图像字幕生成方法及系统,首先,通过Faster R‑CNN提取水下图像的多尺度图像特征,包括全图特征和区域特征,捕获水下图像的场景和显著目标信息。随后,利用CLIP模型生成与水下图像内容相关的文本词嵌入编码,并通过K均值进行多级聚类提取层级化的文本特征,进一步分析文本信息的层级结构。接着,采用基于多头注意力机制的融合方法,有效地将图像特征和文本特征进行融合,增强模型对水下图像的理解能力。最后,融合后的多模态特征输入到基于Transformer的图像字幕生成器中,生成与图像内容和上下文相关的水下图像字幕。该方法能够有效地提升水下图像字幕生成的准确性与鲁棒性,具有较强的实际应用价值。
技术关键词
多模态信息融合 图像字幕生成方法 聚类特征 图像特征提取 多头注意力机制 融合特征 信息融合方法 层级 文本特征向量 K均值算法 多尺度 强化学习技术 区域建议网络 数据分布 线性变换矩阵
系统为您推荐了相关专利信息
1
一种基于人工智能和虚拟现实的智能康复训练方法及系统
数字孪生模型 智能穿戴设备 注意力机制算法 多模态 虚拟现实场景
2
基于预训练语言模型联邦分割学习的网络入侵检测方法
网络入侵检测方法 云端服务器 多头注意力机制 预训练语言模型 分类网络
3
材料的缺陷信息识别方法、模型训练方法及设备
场景特征 神经网络单元 学习器 图像处理方式 融合特征
4
一种多视图知识图谱驱动的产业链协同推荐方法
协同推荐方法 知识图谱驱动 实体 企业 动态
5
一种基于多模态模型的电视播出质量监测系统
监测系统 音频 模态特征 视频帧 反馈控制模块
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号