基于Transformer多粒度特征融合的图像描述方法

AITNT
正文
推荐专利
基于Transformer多粒度特征融合的图像描述方法
申请号:CN202410723213
申请日期:2024-06-05
公开号:CN118570598A
公开日期:2024-08-30
类型:发明专利
摘要
本发明公开了基于Transformer多粒度特征融合的图像描述方法,包括:处理图像数据,将数据划分为训练集、验证集和测试集;构建多尺度特征提取模块MVIT;构建多特征融合模块HF进行视觉特征向量的融合;构建文本解码器,将提取的视觉特征信息和文本信息通过因果注意力机制进行融合,生成最终的图像描述内容;通过构造多尺度特征提取模块和多层级融合模块,以及文本解码器,搭建一个完整的基于Transformer的多粒度特征融合图像描述生成模型,将待描述的图像输入该模型中即可生成图像描述。本发明通过多粒度特征融合技术,能够更全面地捕获图像中的局部细节、物体关系以及全局上下文信息,从而生成更准确、更详细的图像描述。
技术关键词
多尺度特征提取 前馈神经网络 注意力机制 图像 视觉特征信息 文本 解码器 多层次特征融合 训练集 矩阵 多粒度特征 编码器结构 模块 层级 数据 传播算法 网络结构
系统为您推荐了相关专利信息
1
主动学习行车路线的方法、电子设备和车辆
终点 车辆 辅助驾驶功能 电子设备 记忆
2
一种遥感图像变化的检测方法、装置、计算机设备及介质
多层次特征 残差网络 影像 深度卷积神经网络 校正
3
智能分析设备、智能分析方法及监考一体机
嵌入式设备 服务设备 智能分析设备 网络视频录像机 网络摄像机
4
基于车辆的远程交互方法、装置、设备及计算机程序产品
道路交通噪声 远程交互方法 挪车 音视频 多模态
5
基于深度学习的智能锁图像特征识别方法及系统
图像特征识别方法 深度神经网络模型 智能锁 多分支 姿态估计
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号