基于视觉特征与文本特征多层次交互的图像描述生成方法及装置

AITNT
正文
推荐专利
基于视觉特征与文本特征多层次交互的图像描述生成方法及装置
申请号:CN202411544206
申请日期:2024-10-31
公开号:CN119741582B
公开日期:2025-09-19
类型:发明专利
摘要
本发明公开一种基于视觉特征与文本特征多层次交互的图像描述生成方法及装置,该方法步骤包括:获取待描述图像,分别提取出图像的区域特征以及网格特征,输入至基于Transformer架构的特征增强编码器中进行特征提取,进行融合后得到最终的增强图像特征;将获取的待描述图像裁剪成不同大小的多个子图像,并对每个子图像进行检索得到不同大小的子图像的文本描述;将各子图像文本描述分别与所述增强图像特征映射至同一语义空间并进行多层次交互,以基于多层语义指导实现语义信息与视觉特征的校准得到校准后的全局特征;对校准后的全局特征进行解码,得到最终的图像描述结果。本发明能够准确理解图像上下文场景,生成准确、丰富的描述。
技术关键词
视觉特征 图像 网格特征 多层次 文本 语义 注意力 生成方法 校准 分支 编码器 前馈神经网络 线性 模块 Softmax函数 支路 场景特征 解码 生成装置 存储计算机程序
系统为您推荐了相关专利信息
1
远程桌面屏幕帧传输方法、系统、电子设备及存储介质
索引 图像还原 数据 像素点 屏幕
2
基于实例-场景融合增强的3D目标检测方法
场景特征 交叉注意力机制 语义注意力 雷达 视角
3
视觉引导的复烤烟叶自动化定量上料系统及实现方法
自动化定量上料 立体视觉系统 二指平动抓手 坐标系 工业相机
4
一种n型SiC耐高温欧姆接触电极结构的制备方法
传输线模型 欧姆接触电极结构 碳化硅结构 金属沉积 碳化钛
5
一种大型海上工程地质模型建模系统及方法
图像数据压缩技术 三维地质模型 地质统计学方法 克里金插值算法 三维地质建模
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号