一种基于两阶段渐进融合编码的图像描述生成方法及系统

AITNT
正文
推荐专利
一种基于两阶段渐进融合编码的图像描述生成方法及系统
申请号:CN202511564814
申请日期:2025-10-30
公开号:CN121033852A
公开日期:2025-11-28
类型:发明专利
摘要
本发明公开了一种基于两阶段渐进融合编码的图像描述生成方法及系统,方法包括:在第一阶段,将通过图像编码器CLIP ViT提取的特征逐步插值到对应的图像编码器Swin Transformer提取的特征中,以细化语义表征;在第二阶段,提出一个全局感知工作空间模块,该工作空间通过加权融合集成来自图像编码器Swin Transformer与图像编码器CLIP ViT的特征;并通过采用长度无关的扩展模块高效处理可变长度的输入;解决了现有方法依赖单一视觉编码器导致的特征表征碎片化和视觉语言对齐不理想的问题,在图像描述生成的准确性和语义表达丰富度方面具有突出性能。
技术关键词
图像编码器 扩展模块 空间模块 两阶段 生成方法 编码特征 生成系统 融合特征 生成自然语言 视觉特征 序列 文本 语义特征 多头注意力机制 动态 输入解码器
系统为您推荐了相关专利信息
1
一种问答知识增量生成方法、装置、电子设备及存储介质
答案 语义向量 生成方法 条目 过滤模块
2
动画生成方法、装置、计算机设备和计算机可读存储介质
骨骼模型 关节 动画生成方法 可读存储介质 计算机设备
3
一种轻量级空间适配器增强的医学报告生成方法
报告生成方法 适配器 生成医学图像 注意力 特征提取器
4
一种结合数据湖仓的业务数据图谱生成方法及系统
数据 级联 节点 网络 图谱生成方法
5
图像生成方法、装置、电子设备以及介质
掩膜 大语言模型 对象 图像生成方法 布局
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号