一种基于动态特征同步器的多模态图文交错生成模型

正文

推荐专利

申请号：CN202410798605

申请日期：2024-06-20

公开号：CN118364433A

公开日期：2024-07-19

类型：发明专利

摘要

本公开涉及多模态学习技术领域，尤其涉及一种基于动态特征同步器的多模态图文交错生成模型，所述多模态图文交错生成模型包括图像编码器和多模态大语言模型；图像编码器用于从图文交错数据的输入图像中提取多分辨率多尺度特征图；多模态大语言模型中的动态特征同步器用于从多分辨率多尺度特征图中获取细粒度信息，以使得多模态大语言模型基于细粒度信息确定图文交错数据对应的输出特征数据，输出特征数据用于生成与图文交错数据相关联的目标图像和/或目标文本。本公开实施例通过动态特征同步器将图文交错数据中的细粒度信息动态注入至多模态大语言模型中，突破细节利用瓶颈，提高上下文理解能力，实现了对图文交错数据的高效联合理解和生成。

技术关键词

大语言模型多尺度特征图文同步器多分辨率多模态图像解码器输出特征图像编码器数据动态文本特征向量非易失性计算机可读存储介质计算机程序指令注意力采样点分类器视觉

系统为您推荐了相关专利信息

一种基于大语言模型的无人机群任务规划方法

大语言模型生成无人机构建无人机规划理解自然语言

一种印刷包装的生产质量控制方法

轻量化卷积神经网络深度确定性策略梯度遗传优化算法包装焦点损失函数

一种基于隐式神经模型的粗集料三维重建方法

三维重建方法轮廓图像数据纹理模型粗集料颗粒图像获取系统

便携式的高算力产品和信息处理方法

芯片散热风扇 Type‑C接口信号信息处理方法

一种免训练的网格化视频特征压缩方法

标记序列网格图像块文本

一种基于动态特征同步器的多模态图文交错生成模型

站点导航

APP 下载