摘要
本发明公开了一种基于两阶段渐进融合编码的图像描述生成方法及系统,方法包括:在第一阶段,将通过图像编码器CLIP ViT提取的特征逐步插值到对应的图像编码器Swin Transformer提取的特征中,以细化语义表征;在第二阶段,提出一个全局感知工作空间模块,该工作空间通过加权融合集成来自图像编码器Swin Transformer与图像编码器CLIP ViT的特征;并通过采用长度无关的扩展模块高效处理可变长度的输入;解决了现有方法依赖单一视觉编码器导致的特征表征碎片化和视觉语言对齐不理想的问题,在图像描述生成的准确性和语义表达丰富度方面具有突出性能。
技术关键词
图像编码器
扩展模块
空间模块
两阶段
生成方法
编码特征
生成系统
融合特征
生成自然语言
视觉特征
序列
文本
语义特征
多头注意力机制
动态
输入解码器
系统为您推荐了相关专利信息
骨骼模型
关节
动画生成方法
可读存储介质
计算机设备
报告生成方法
适配器
生成医学图像
注意力
特征提取器