基于视觉语言对齐的视觉叙事生成方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202510309756

申请日期：2025-03-17

公开号：CN120279301A

公开日期：2025-07-08

类型：发明专利

摘要

本申请公开了一种基于视觉语言对齐的视觉叙事生成方法、装置、电子设备及存储介质，属于图像理解技术领域。方法包括：获取待处理图像序列和指令文本；将所述待处理图像序列和所述指令文本输入至多模态大模型，得到所述多模态大模型输出的视觉叙事文本；所述多模态大模型包括依次连接的视觉编码器、多模态映射器和大语言模型，还包括文本编码器，所述文本编码器的输出端连接所述大语言模型的输入端；所述将所述待处理图像序列和所述指令文本输入至多模态大模型，得到所述多模态大模型输出的视觉叙事文本，包括：通过所述视觉编码器，对所述待处理图像序列中的图像进行依次编码，生成视觉特征；通过所述多模态映射器，将所述视觉特征依次投射至所述大语言模型的词嵌入空间进行语义对齐，得到语言嵌入向量；通过所述文本编码器，对所述指令文本转换成指令嵌入向量；通过所述大语言模型，根据所述语言嵌入向量和所述指令嵌入向量进行逻辑推理，生成所述视觉叙事文本。该方法能够有效对齐视觉信息与语言输出，提升了多图叙事的视觉相关性。

技术关键词

多模态文本编码器样本大语言模型序列生成方法视觉特征指令主题集合非暂态计算机可读存储介质图像理解技术标签电子设备处理器语义输入端

系统为您推荐了相关专利信息

网络数据安全处理方法及平台

异常事件加密数据数据安全时延分类神经网络

一种金融营销平台数据的信息匹配管理系统及方法

匹配管理系统市场营销策略子模块金融风险

主动降噪系统及其控制方法、异音检测方法、装置

主动降噪系统异音检测方法异音检测装置信号扬声器

对象需求处理方法、装置、设备、存储介质及程序产品

对象融合特征模型框架构建音频特征提取视觉特征提取

一种基于多模态信息融合的茶芽筛选方法

多模态信息融合筛选方法网络点云滤波图像

基于视觉语言对齐的视觉叙事生成方法、装置、电子设备及存储介质

站点导航

APP 下载