基于Transformer多粒度特征融合的图像描述方法

正文

推荐专利

申请号：CN202410723213

申请日期：2024-06-05

公开号：CN118570598A

公开日期：2024-08-30

类型：发明专利

摘要

本发明公开了基于Transformer多粒度特征融合的图像描述方法，包括：处理图像数据，将数据划分为训练集、验证集和测试集；构建多尺度特征提取模块MVIT；构建多特征融合模块HF进行视觉特征向量的融合；构建文本解码器，将提取的视觉特征信息和文本信息通过因果注意力机制进行融合，生成最终的图像描述内容；通过构造多尺度特征提取模块和多层级融合模块，以及文本解码器，搭建一个完整的基于Transformer的多粒度特征融合图像描述生成模型，将待描述的图像输入该模型中即可生成图像描述。本发明通过多粒度特征融合技术，能够更全面地捕获图像中的局部细节、物体关系以及全局上下文信息，从而生成更准确、更详细的图像描述。

技术关键词

多尺度特征提取前馈神经网络注意力机制图像视觉特征信息文本解码器多层次特征融合训练集矩阵多粒度特征编码器结构模块层级数据传播算法网络结构

系统为您推荐了相关专利信息

主动学习行车路线的方法、电子设备和车辆

终点车辆辅助驾驶功能电子设备记忆

一种遥感图像变化的检测方法、装置、计算机设备及介质

多层次特征残差网络影像深度卷积神经网络校正

智能分析设备、智能分析方法及监考一体机

嵌入式设备服务设备智能分析设备网络视频录像机网络摄像机

基于车辆的远程交互方法、装置、设备及计算机程序产品

道路交通噪声远程交互方法挪车音视频多模态

基于深度学习的智能锁图像特征识别方法及系统

图像特征识别方法深度神经网络模型智能锁多分支姿态估计

基于Transformer多粒度特征融合的图像描述方法

站点导航

APP 下载