摘要
本公开涉及多模态学习技术领域,尤其涉及一种基于动态特征同步器的多模态图文交错生成模型,所述多模态图文交错生成模型包括图像编码器和多模态大语言模型;图像编码器用于从图文交错数据的输入图像中提取多分辨率多尺度特征图;多模态大语言模型中的动态特征同步器用于从多分辨率多尺度特征图中获取细粒度信息,以使得多模态大语言模型基于细粒度信息确定图文交错数据对应的输出特征数据,输出特征数据用于生成与图文交错数据相关联的目标图像和/或目标文本。本公开实施例通过动态特征同步器将图文交错数据中的细粒度信息动态注入至多模态大语言模型中,突破细节利用瓶颈,提高上下文理解能力,实现了对图文交错数据的高效联合理解和生成。
技术关键词
大语言模型
多尺度特征
图文
同步器
多分辨率
多模态
图像解码器
输出特征
图像编码器
数据
动态
文本特征向量
非易失性计算机可读存储介质
计算机程序指令
注意力
采样点
分类器
视觉
系统为您推荐了相关专利信息
大语言模型
生成无人机
构建无人机
规划
理解自然语言
轻量化卷积神经网络
深度确定性策略梯度
遗传优化算法
包装
焦点损失函数
三维重建方法
轮廓图像数据
纹理模型
粗集料颗粒
图像获取系统
芯片
散热风扇
Type‑C接口
信号
信息处理方法