基于视觉语言对齐的视觉叙事生成方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
基于视觉语言对齐的视觉叙事生成方法、装置、电子设备及存储介质
申请号:CN202510309756
申请日期:2025-03-17
公开号:CN120279301A
公开日期:2025-07-08
类型:发明专利
摘要
本申请公开了一种基于视觉语言对齐的视觉叙事生成方法、装置、电子设备及存储介质,属于图像理解技术领域。方法包括:获取待处理图像序列和指令文本;将所述待处理图像序列和所述指令文本输入至多模态大模型,得到所述多模态大模型输出的视觉叙事文本;所述多模态大模型包括依次连接的视觉编码器、多模态映射器和大语言模型,还包括文本编码器,所述文本编码器的输出端连接所述大语言模型的输入端;所述将所述待处理图像序列和所述指令文本输入至多模态大模型,得到所述多模态大模型输出的视觉叙事文本,包括:通过所述视觉编码器,对所述待处理图像序列中的图像进行依次编码,生成视觉特征;通过所述多模态映射器,将所述视觉特征依次投射至所述大语言模型的词嵌入空间进行语义对齐,得到语言嵌入向量;通过所述文本编码器,对所述指令文本转换成指令嵌入向量;通过所述大语言模型,根据所述语言嵌入向量和所述指令嵌入向量进行逻辑推理,生成所述视觉叙事文本。该方法能够有效对齐视觉信息与语言输出,提升了多图叙事的视觉相关性。
技术关键词
多模态 文本编码器 样本 大语言模型 序列 生成方法 视觉特征 指令 主题集合 非暂态计算机可读存储介质 图像理解技术 标签 电子设备 处理器 语义 输入端
系统为您推荐了相关专利信息
1
网络数据安全处理方法及平台
异常事件 加密数据 数据安全 时延 分类神经网络
2
一种金融营销平台数据的信息匹配管理系统及方法
匹配管理系统 市场营销策略 子模块 金融 风险
3
主动降噪系统及其控制方法、异音检测方法、装置
主动降噪系统 异音检测方法 异音检测装置 信号 扬声器
4
对象需求处理方法、装置、设备、存储介质及程序产品
对象 融合特征 模型框架构建 音频特征提取 视觉特征提取
5
一种基于多模态信息融合的茶芽筛选方法
多模态信息融合 筛选方法 网络 点云滤波 图像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号