基于视觉特征与文本特征多层次交互的图像描述生成方法及装置

正文

推荐专利

申请号：CN202411544206

申请日期：2024-10-31

公开号：CN119741582B

公开日期：2025-09-19

类型：发明专利

摘要

本发明公开一种基于视觉特征与文本特征多层次交互的图像描述生成方法及装置，该方法步骤包括：获取待描述图像，分别提取出图像的区域特征以及网格特征，输入至基于Transformer架构的特征增强编码器中进行特征提取，进行融合后得到最终的增强图像特征；将获取的待描述图像裁剪成不同大小的多个子图像，并对每个子图像进行检索得到不同大小的子图像的文本描述；将各子图像文本描述分别与所述增强图像特征映射至同一语义空间并进行多层次交互，以基于多层语义指导实现语义信息与视觉特征的校准得到校准后的全局特征；对校准后的全局特征进行解码，得到最终的图像描述结果。本发明能够准确理解图像上下文场景，生成准确、丰富的描述。

技术关键词

视觉特征图像网格特征多层次文本语义注意力生成方法校准分支编码器前馈神经网络线性模块 Softmax函数支路场景特征解码生成装置存储计算机程序

系统为您推荐了相关专利信息

远程桌面屏幕帧传输方法、系统、电子设备及存储介质

索引图像还原数据像素点屏幕

基于实例-场景融合增强的3D目标检测方法

场景特征交叉注意力机制语义注意力雷达视角

视觉引导的复烤烟叶自动化定量上料系统及实现方法

自动化定量上料立体视觉系统二指平动抓手坐标系工业相机

一种n型SiC耐高温欧姆接触电极结构的制备方法

传输线模型欧姆接触电极结构碳化硅结构金属沉积碳化钛

一种大型海上工程地质模型建模系统及方法

图像数据压缩技术三维地质模型地质统计学方法克里金插值算法三维地质建模

基于视觉特征与文本特征多层次交互的图像描述生成方法及装置

站点导航

APP 下载