摘要
本申请公开了一种基于视觉语言对齐的视觉叙事生成方法、装置、电子设备及存储介质,属于图像理解技术领域。方法包括:获取待处理图像序列和指令文本;将所述待处理图像序列和所述指令文本输入至多模态大模型,得到所述多模态大模型输出的视觉叙事文本;所述多模态大模型包括依次连接的视觉编码器、多模态映射器和大语言模型,还包括文本编码器,所述文本编码器的输出端连接所述大语言模型的输入端;所述将所述待处理图像序列和所述指令文本输入至多模态大模型,得到所述多模态大模型输出的视觉叙事文本,包括:通过所述视觉编码器,对所述待处理图像序列中的图像进行依次编码,生成视觉特征;通过所述多模态映射器,将所述视觉特征依次投射至所述大语言模型的词嵌入空间进行语义对齐,得到语言嵌入向量;通过所述文本编码器,对所述指令文本转换成指令嵌入向量;通过所述大语言模型,根据所述语言嵌入向量和所述指令嵌入向量进行逻辑推理,生成所述视觉叙事文本。该方法能够有效对齐视觉信息与语言输出,提升了多图叙事的视觉相关性。
技术关键词
多模态
文本编码器
样本
大语言模型
序列
生成方法
视觉特征
指令
主题集合
非暂态计算机可读存储介质
图像理解技术
标签
电子设备
处理器
语义
输入端
系统为您推荐了相关专利信息
主动降噪系统
异音检测方法
异音检测装置
信号
扬声器
对象
融合特征
模型框架构建
音频特征提取
视觉特征提取